01 研究方法 1.1 时域特征 时域特征是从时间序列数据中直接提取的特征,广泛应用于信号处理、振动分析、音频处理、生物医学信号分析等领域,可以揭示信号的基本统计特性和时序结构,常用于表征信号的趋势性、波动性、周期性等特征。本文主要选取了在泄漏识别模型中经常用到的一些时域特征,如表1所示。


表1 泄漏信号的时域特征
1.2 频域特征 频域特征是从信号或数据的频率域中提取的特征。与时域特征不同,频域特征主要描述信号在频率空间中的分布和特性,通过傅里叶变换将时域信号转换为频域信号来进行分析,常用于揭示信号的周期性、振荡频率和能量分布。本文主要选取了在泄漏识别模型中经常用到的一些频域特征,如表2所示。
表2 泄漏信号的频域特征
1.3 管道泄漏试验平台 为了更好地开展供水管道泄漏模拟试验研究,搭建了一个管道泄漏试验平台,如图1所示。该试验平台由直径为DN100的镀锌钢管组成,管道总长约120 m,布置在地面以上,便于在管道表面密集部署传感器,用于监测管道泄漏时产生的声学信号,从而能够更精确地获取泄漏信息。因此,本试验设置了29个监测点,监测点之间间隔3 m,从泄漏声源到最后一个监测点的距离为84 m。


图1 供水管道泄漏试验平台
管道系统采用变频泵和稳压罐来维持管内压力,通过调节泄漏孔的开启度来实现不同的泄漏流量。每次试验时,先启动管道系统,待管道系统运行稳定后再进行泄漏试验。
1.4 泄漏识别模型 支持向量机(SVM,Support Vector Machine)是一种常用于分类、回归和异常检测的监督学习模型。其核心思想是通过寻找一个最优的超平面,将不同类别的数据尽可能有效地分开,并使得该超平面两侧的间隔最大化,以提高分类的准确性和模型的泛化能力。
多层感知器(MLP,Multilayer Perceptron)模型是一种有监督学习算法,由一个输入层、一个或多个隐含层以及一个输出层组成,每个网络层可以包含多个神经元,是一种比较简单的神经网络模型。虽然MLP模型结构简单,但却具有强大地拟合非线性数据的能力。
XGBoost是一种基于梯度提升决策树(GBDT, Gradient Boosting Decision Tree)的高效机器学习算法,以其出色的准确性和鲁棒性而闻名,曾在 Kaggle 竞赛中多次夺得冠军。作为当前最流行的机器学习算法之一,XGBoost广泛应用于分类、回归、排序等各类监督学习任务。
上述三种常见的机器学习模型已被应用于管道泄漏检测领域。本文在此基础上,选取关键泄漏特征作为模型输入,对比不同模型的泄漏识别效果。
02 试验结果与分析 2.1 试验工况与数据采集 在管道泄漏试验平台上进行试验时,将加速度传感器吸附在管道表面,以采集在不同泄漏流量和传播距离下的泄漏信号。每次泄漏试验开始前,先采集3组管道系统稳定运行时的背景噪声数据。随后,打开泄漏孔,并在管道系统压力稳定后,在每个监测点处分别采集3组泄漏信号。采样频率设定为10 kHz,采样时长为3~10 s。所有试验均在夜间进行,以最大限度地减少环境噪声对试验结果的影响。试验工况参数见表3。
表3 试验工况参数
在试验过程中采集的典型泄漏信号和非漏信号对应的波形和频谱如图2所示,可以发现泄漏信号的时域波形振幅更大、分布更密集,主要频率成分集中在800~1 200 Hz;而非漏信号的时域波形振幅更弱、分布更稀疏,频率成分在1 200 Hz以下均有分布。


图2 典型非漏状态和泄漏状态的波形与频谱
2.2 泄漏信号的传播衰减规律 实际中的泄漏信号成分复杂,往往含有不同的频率分成,本文采用谱减法对实际采集到的泄漏信号进行降噪处理。通过估计泄漏信号中的背景噪声频谱,在泄漏信号的频谱上减去背景噪声部分,然后利用逆傅里叶变换获得较为纯净的泄漏信号。将不同监测点采集到的泄漏信号按不同的频率范围从100~2 000 Hz依次划分为9段,每段间隔200 Hz,统计每一段频率范围内的泄漏信号能量值,分析泄漏信号中不同频率成分的传播衰减规律。
下面以DN100镀锌钢管,泄漏流量0.15 m³/h的试验工况为例进行分析。图3所示为泄漏信号中不同频率成分的能量随传播距离的变化规律,横坐标是监测点位,相邻监测点之间的距离为3m。从图中可以看出,100~300 Hz频率成分的信号强度衰减较为缓慢,而900~1 100 Hz频率成分的信号强度衰减较快。线性拟合图2中不同频率成分的能量衰减曲线,从低频范围到高频范围依次得到拟合后的直线斜率为0.95、1.28、1.54、1.56、1.94、1.84、1.75、1.80、1.77。泄漏信号中100~300 Hz频率成分对应的斜率最小,为0.95,说明在传播过程中低频信号的能量衰减速度较慢;900~1 100 Hz频率成分对应的斜率最大,为1.94,其余1 100 Hz以上的高频成分对应的斜率也较大,说明在传播过程中高频信号的能量衰减速度较快。


图3 泄漏信号中不同频率成分的能量变化
在第1个监测点,泄漏信号中900~1 100 Hz频率成分占比最大,随着泄漏信号的传播,高频成分衰减较快,到最后一个监测点时,泄漏信号中100~300 Hz频率成分占最大,如图4所示。


图4 泄漏信号中不同频率成分的能量变化曲线
除了传播距离会影响泄漏信号能量衰减外,漏量大小也是关键因素之一。泄漏流量越大,产生的泄漏信号强度越高,越能传播较远的距离。在管材、管径、泄漏孔口形状、管内压力等条件相同的情况下,分析漏量对泄漏信号频率成分的影响。图5所示为DN100镀锌钢管在不同漏量下,泄漏信号中不同频率成分的占比情况。从中可以看出,不同漏量下的泄漏信号频率分布差别不大,主频范围都为900~100 Hz,说明漏量主要影响泄漏信号的强度大小,而对泄漏信号的频率分布影响不大。
因此,泄漏信号在传播过程中,信号的能量大小和频率分布都会发生变化,传播距离越远,信号强度越弱,低频成分占比越大。对于其他试验工况下的泄漏信号也呈现出相同的规律。


图5 不同漏量下的泄漏信号频率成分占比情况
2.3 不同传播距离下的泄漏特征 受泄漏信号传播衰减规律的影响,其声学特征会发生不同程度的变化。对于同一泄漏声源,在不同位置采集到的泄漏信号声学特征也会有所差异。


图6展示了不同时域特征随信号传播距离的变化情况,横坐标为监测点位置,相邻监测点之间的距离为3 m。对于无量纲特征,纵坐标未显示。从图中可以看出:
图6 不同时域特征随传播距离的变化情况
(1)信号能量随着传播距离的增加逐渐减弱。泄漏流量越大,信号强度越高,但漏量对信号的衰减速率影响较小。与信号能量密切相关的均方根值、峰峰值也呈现出类似的变化趋势。
(2)偏度因子对传播距离变化不敏感,围绕0上下波动,表明泄漏信号在时域上的数据分布大致以均值为中心,呈对称性分布。
(3)过零率随着传播距离的增加逐步下降,这表明泄漏信号在传播过程中变化速率逐渐减缓,频谱逐渐由低频成分主导。
(4)脉冲因子、波形因子、峰度因子对传播距离变化不敏感,这表明信号较为平稳,能量分布相对均匀,缺乏明显的突发性变化,进一步验证了泄漏信号属于宽平稳信号的特征。
(5)在0.15 m³/h泄漏流量下,偏度因子、脉冲因子、波形因子、峰度因子在17~23监测点之间有较大波动,这4个特征常用于评估信号中的突发性和异常值特征,例如信号中是否有冲击干扰等。主要原因有两个方面:一方面,由于泄漏流量较小,产生的泄漏信号强度相对较弱,易受管内外干扰噪声的影响;另一方面,从17~23监测点之间存在弯头、阀门等管道附件,水流经过这些附件时会产生水动力噪声,从而影响泄漏信号的特征分布。而在0.30 m³/h和0.88 m³/h的泄漏流量下并没有出现类似的情况,主要是因为泄漏流量较大,产生的泄漏信号强度相对较强,不易被管内外干扰噪声所淹没。
图7显示了不同频域特征随信号传播距离的变化情况,横坐标表示监测点位置,相邻监测点之间的距离为3 m。对于无量纲特征,纵坐标未显示。从图中可以看出:


图7 不同频域特征随传播距离的变化情况
(1)泄漏信号频谱的波形因子对传播距离变化不敏感,这一现象与其在时域中的变化规律一致。此外,频谱的脉冲因子、峰度因子和偏度因子同样对传播距离不敏感,表明这些特征不受传播距离的影响,泄漏信号在这些特征维度上保持平稳。
(2)频率中心随着传播距离的增加逐渐降低,从最初的1 000 Hz下降到约200 Hz;频谱滚降同样呈现相似的下降趋势,从1 200 Hz降至约400 Hz。这表明泄漏信号的能量逐渐集中在低频范围内。这种 现象与信号传播过程中的衰减规律密切相关,即高频成分衰减较快,而低频成分衰减较慢。
(3)频谱通量、谱熵、谱平坦度随传播距离的增加逐渐降低,这表明泄漏信号的频谱变化速率在传播过程中逐步减慢。信号在产生时包含丰富的频率成分,频谱能量分布较为均匀,因此谱熵较高。然而,随着传播距离的增加,频率成分逐渐减少,频谱能量开始集中于少数频率范围内,导致谱熵逐步降低。
综上所述,对于时域特征,信号能量、均方根值、峰峰值以及过零率对传播距离的变化较为敏感;而在频域特征中,频率中心、频谱滚降、频谱通量、谱熵、谱平坦度也对传播距离的变化较为敏感。因此,在开发泄漏识别模型时,可以优先选择这些对距离变化敏感的关键特征作为模型输入,从而提高模型的识别精度与稳定性。
03 泄漏识别结果分析 根据上述试验结果,本文选取了信号能量、均方根值、峰峰值、过零率、频率中心、频谱滚降、频谱通量、谱熵、谱平坦度这9个对传播距离较为敏感的特征作为模型输入。随后,依次采用SVM、MLP、XGBoost分类算法构建泄漏识别模型。通过对比不同模型的泄漏识别效果,进一步验证这些关键特征在泄漏识别任务中的有效性与适用性。
本文依托团队在上海、成都等地实际管网中采集的声波数据开发泄漏识别模型,并未使用试验数据。数据集由2 370条泄漏声波和2 721条干扰噪声组成,采样频率为8 k~10 kHz,采样时长为3~10 s。然后,将数据集按6∶2∶2的比例随机划分为训练集、验证集和测试集,确保模型能够在不同数据集上进行有效训练和评估。通过调用 Python 的机器学习库Scikit-learn来实现SVM、MLP、XGBoost 这三种分类算法,采用Grid-Search网格搜索技术寻找每个模型的最优参数。
本文采用准确率、准报率、误报率来评估泄漏识别模型效果,将泄漏样本(泄漏信号)视为正样本,正常样本(干扰噪声)视为负样本。准确率是模型正确识别的样本数占总样本数的比例,准报率是模型正确识别的泄漏样本数占实际泄漏样本数的比例,误报率是模型错误识别的泄漏样本数占实际正常样本数的比例。
表4所示为泄漏识别模型在测试集上的结果,所有特征表示选取了之前提到的17个时域和频域特征。从表中可以看出,相较于使用所有特征相比,选择9个关键特征有助于提高SVM、MLP、XGBoost模型的识别效果,还降低了模型复杂度。其主要原因在于,这9个关键特征能够更有效地捕捉泄漏信号的能量分布和频谱特征,而泄漏的准确识别在很大程度上依赖于这些反映能量和频谱分布的关键特征。因此,减少不相关特征的干扰,集中在与能量和频谱相关的特征上,能够提高模型的识别精度。
表4 泄漏识别模型效果


04 结 论 本文通过供水管道泄漏试验,研究了泄漏信号在传播过程中的声学特征变化规律,遴选出9个对传播距离敏感的关键泄漏特征,并验证了这些关键特征在泄漏识别任务中的有效性,得出以下结论:
(1)泄漏信号在传播过程中,信号的能量大小和频率分布都会发生显著变化。传播距离越远,信号强度越弱,低频成分占比就越大;泄漏信号中不同频率成分表现出不同的衰减规律,高频成分衰减快,低频成分衰减慢;此外,漏量大小主要影响泄漏信号的能量分布,而对其频率分布的影响相对较小。
(2)信号的能量、均方根值、峰峰值、过零率等4个时域特征,以及频率中心、频谱滚降、频谱通量、谱熵、谱平坦度等5个频域特征能够更敏感地反映泄漏信号的能量分布和频谱变化特征。这些特征在不同传播距离下能够准确刻画泄漏信号的变化,特别是在能量和频谱特性方面的表现尤为显著。
(3)基于上述9个关键特征构建的机器学习模型(SVM、MLP、XGBoost)在泄漏识别任务中表现出优异的识别效果,减少了不相关特征的干扰,进一步提升了模型的准确性和稳定性。
通过对关键特征的合理选择以及与机器学习模型的结合,可以有效提高供水管道泄漏识别效果。在未来的工作中,还需在更多的泄漏识别任务上测试并验证这些特征的有效性,以确保其在不同应用场景下的适用性和稳健性。
微信对原文有修改。原文标题:供水管道泄漏信号传播过程中声学特征变化规律;作者:郭冠呈、范晶璟、马兴科、赵云峰、吴以朋、冯乐、刘书明;作者单位:清华大学环境学院、上海临港供排水发展有限公司、成都市自来水有限责任公司。刊登在《给水排水》2025年第10期。







