Skip to main content

水文缺失数据补齐

· 7 min read
李慧

在地下水监测领域,时间序列数据是必不可少的基础数据。随着我国对地下水监测工作的逐渐重视与完善,我们在获得了大量的高频水位监测数据同时,也在在时间序列数据的统计与利用上遇到了新的问题。这些问题,既包括数据在时间空间上的不均匀,数据采集过程中意外因素影响导致的采集中断,设备因意外变化失去校准导致数据失真等采集问题,也包括时序数据的特征提取,数据清洗,模型数据预处理等下游问题。

传统的时序数据补齐通常以插值为基础,其中最为简单的插值方法为临点法,即以时间向前最靠近的或向后最靠近的有效数据作为该时间点的数据值;线性插值先对于临点法更为符合真实世界的物理规律,其逻辑为取数值缺失的时间序列片段前后有效数据,以线性的方式补齐缺失时间段上各个数据点;工程上运用最多的插值方法为样条插值,该方法需要插值所在位置前后两个或三个连续数据点,通过二次及三次多项式的拟合完成极为贴近真实世界的拟真。在水文地质领域,应用最多的插值方法为高斯过程插值法,它更被水文地质工作者所熟知的名字为克里金插值。统计学方法的数据补齐介于插值法与神经网络模拟中间,如将时序数据先输入贝叶斯网进行参数调整,而后以此网络进行插值预测,其本质上已经可以归类于机器学习。以上插值方法在数据缺失量较少,数据周期性较弱的情况下有各自的优势领域。地下水时序数据与季节周期有显著的相关性,同时若缺失数据较多且连续,如出现跨周期的情况,以上插值方法通常无法实现与现实结果相符的结果。

利用大数据机器学习方法进行时序数据补齐为近二十年最为火热的研究领域,其应用覆盖信号监测,随机数列预测,自然语言学习等无数相领域。近几年,水文工作者开始逐步将在计算机科学经过实践检验的机器学习工具运用在水文领域,产生了一批值得瞩目的科研成果。自组织映射 (SOM)是一种无监督机器学习技术,是通过神经元间的竞争学习将相似的数据映射到相邻位置并保持拓扑结构不变的一种方法,最早由Kohonen基于生物神经网络对外部信号分布式响应的特征提出,其特点与人脑的自组织特性相类似,会接受外界输入模式时,将会自动分为不同的对应区域,各区域对输入模式具有不同的响应特征。SOM常用于生成高维数据集的低维(通常为二维)表示,同时保留数据集的拓扑结构。由于这种聚类过程是数据的全部维度映射,所以SOM本身具有多维数据融合的属性。本项目使用SOM神经网络对监测井水位数据以及水位值对时间的一阶导数进行融合学习,其后使用训练后的神经网络对缺失的水位数据和水位的时间导数进行补齐,以求得到时空完整的监测井水位时间序列。

使用水位数据直接训练称为SOM水位补齐,适用于数据远距离外插以及跨周期内插等情形。在此类确定性极低的情况下,由于数据序列附近没有可用锚点,对空缺水位的预测仅能来自于其它在此时间点做过水位测量的监测点,这时使用SOM水位补齐方法产生的水位预测结果可以作为锚点,指导后续的时间序列内插工作。然而从特定角度观察,SOM水位补齐方法类似于使用平均值进行补齐,若应用在监测频率较为密集的水位时间序列补齐(如小时数据)中,容易产生较大短期波动,与经验不符。为克服此局限性,在使用SOM水位补齐方法生成阶段性水位锚点后,可以重新对SOM神经网络进行训练,此时不是使用水位向量,而是使用水位对时间的一阶导数(近似于本时间步与上时间步间的水位差值)组成的向量对SOM进行训练,此时的预测值即为从水位锚点出发的逐时间点水位增量,产生顺滑的水位时间序列补齐结果,称为SOM增量补齐。