一种基于注意力机制的LSTM网络的PM2.5浓度预测方法_单项专利_技飞网_实用技术_创业技术_招商加盟信息

一种基于注意力机制的LSTM网络的PM2.5浓度预测方法

2022-11-17 19:36:04

0次

资料编号:JWX-BG-7157,客服18980857561，028-87023516

以下为资料目录

一种基于注意力机制的lstm网络的pm2.5浓度预测方法
技术领域
1.本发明属于空气污染物预测领域，具体涉及一种基于注意力机制的lstm网络的pm2.5浓度预测方法。

背景技术：

2.随着人类科技发展与生活需求质量的提升，越来越多的人类活动不仅给自然环境保护带了巨大负担，也对人类自己的生活环境产生了严重的影响。石油开采，火力发电、冶金工程、化学气体排放、供热等过程会产生大量细颗粒物，这些在气动力学中当量直径小于或等于2.5微米的颗粒物，被称为pm
2.5
，尽管pm
2.5
在整个大气中的占比部分并不多，但由于其容易被吸入导致人体健康损害的特性，让pm
2.5
成为了环境污染监控的重要指标。针对pm
2.5
浓度的预测可以有效的与浓度监测相结合，可以更有效的对未来浓度走势进行预警、提前对污染物、废气排放等的管理做出有指导意义的意见。对城市空气质量的预警、调控方案有重要意义。
3.现有的pm
2.5
时序预测方法主要分为统计学方法、传统机器学习方法和深度学习方法。经典的统计学方法大多适用于线性变化的时间序列，但真实场景下的时间序列数据影响因素复杂，大多呈现明显的非线性变化趋势。传统机器学习受限于专家知识与特征工程，复杂场景中缺乏灵活性和通用性。深度学习作为端到端的解决方案，能够有效的利用精心设计的网络结构提取高维度的特征，再进行下游的任务。经典预测方法和机器学习方法因其解释性强，有坚实的理论基础，是现在使用最为广泛的方法，随着人工智能技术的普及，越来越多的深度学习方法被证明是有效的。通过抽象人的注意力机制，用于时间序列的注意力机制能够很好的捕获重要的时间步特征，因此融合注意力机制和lstm网络的模型被提出用于pm
2.5
预测领域。
4.当前，大多数pm
2.5
浓度预测方法不能很好的捕捉短期和长期变化特征，不同的时间窗口不仅包含了周期信息，也有局部突变的时间效应。仅考虑提取一种时间窗口下的变化模式会降低预测的精度。基于注意力机制的预测模型虽然能够较为有效的处理变长时间序题，但其仍然受限于超参数过多、训练速度缓慢且在小数据集上的表现不佳等问题。此外由于外部影响因素复杂，越来越多的pm
2.5
浓度预测不再局限于单变量分析，而是转换为多变量预测问题。因此如何有效将不同时间序列信息之间的相互作用、相互依赖的关系进行建模，对提高预测的精度具有重要意义。

技术实现要素：

5.针对现有技术存在的不足，本发明提出了一种基于注意力机制的lstm网络的pm2.5浓度预测方法，该方法包括：以pm2.5为预测的目标污染物构建pm2.5浓度预测模型；采用环境监测的pm2.5浓度数据、其他污染物浓度数据以及气象因子数据对pm2.5浓度预测模型进行训练；获取第一时间段的pm2.5浓度数据以及第二时间段的其他污染物浓度数据和气象因子数据，采用训练好的pm2.5浓度预测模型对第二时间段的pm2.5浓度进行预测；
其中，其他污染物浓度数据包括pm
10
、co、no2、o3和so2的每小时浓度数据；
6.对pm2.5浓度预测模型进行训练的过程包括：
7.s1：对环境监测的pm2.5浓度数据、其他污染物浓度数据以及气象因子数据进行数据预处理；根据预处理后的数据构建多元时间序列；
8.s2：采用二维卷积对多元时间序列进行不同尺度的特征提取，得到不同尺度的特征图；
9.s3：对不同尺度的特征图分别进行压缩和非线性变换处理，并将处理后的特征图分别输入到带有注意力机制的堆叠残差网络中进行处理，得到输出特征；将所有输出特征融合，得到融合特征图；
10.s4：将融合特征图输入到lstm网络中进行处理，得到pm2.5浓度预测结果。
11.优选的，气象因子数据包括温度、湿度、风速、风向和降水量的每小时数据。
12.优选的，采用二维卷积对多元时间序列进行不同尺度的特征提取的过程包括：采用不同卷积核的二维卷积对多元时间序列进行卷积操作，得到不同时间序列的时间特征表示；采用激活函数、最大池化层对不同时间序列的时间特征表示进行处理，得到不同尺度的特征图。
13.优选的，带有注意力机制的堆叠残差网络由多个基本网络单元堆叠而成，每个基本网络单元由注意力模块和单元残差网络连接组成，单元残差网络包括批归一化、一维卷积和relu激活函数。
14.优选的，带有注意力机制的堆叠残差网络对特征图的处理过程包括：
15.将特征图分别输入到全局平均池化层和全局最大池化层进行压缩处理，得到平均池化特征和最大池化特征；
16.将平均池化特征和最大池化特征输入到多层共享感知机中，得到两个分支通道注意力特征图；其中，多层共享感知机由一个全连接层连接激活函数后再串联两个全连接层组成；
17.将两个分支通道注意力特征图相加后，使用sigmoid函数进行处理后得到注意力特征图；
18.将所有注意力特征图映射到原特征图中，得到特征加权映射后的卷积特征图；
19.堆叠残差网络对特征加权映射后的卷积特征图进行处理，得到输出特征。
20.进一步的，全局平均池化层和全局最大池化对特征图进行压缩处理的公式分别为：
[0021][0022][0023]
其中，a表示平均池化特征，b表示最大池化特征，uc(i,j)表示卷积特征图中的数据单元(i,j)，w表示卷积特征图的宽度，h表示卷积特征图的高度。
[0024]
进一步的，得到注意力特征图的公式为：
[0025]
t＝σ(w3δ(w1w2a)+w3δ(w1w2b))
[0026]
其中，t表示注意力特征图，σ表示sigmoid函数，δ表示relu激活函数，a表示提取的平均池化特征，b表示提取的最大池化特征，w1表示降维矩阵，w2表示升维矩阵，w3表示线性映射矩阵。
[0027]
进一步的，将注意力特征图映射到原特征图的公式为：
[0028][0029]
其中，表示特征加权映射后的卷积特征图，f
scale
()表示卷积映射操作，tc表示各卷积特征通道的权重标量，uc表示卷积特征图。
[0030]
本发明的有益效果为：
[0031]
(1)本发明基于多个卷积神经网络分支作为特征提取器，不同的卷积过滤器大小和滑动步长能够感受不同时间尺度的变化，提取隐式特征，提升模型对于非线性变化时间序列的变化模式学习能力；并且多个卷积分支也能有效的进行特征增强。
[0032]
(2)本发明对每个卷积分支的后增加了堆叠的残差注意力网络，针对不同分支的卷积特征图通道的相互依赖关系进行建模，自适应的对预测目标有提升效果的通道进行加权；此外由于该残差网络可以堆叠多层，有效的表示高维的特征向量。
[0033]
(3)本发明混合了卷积神经网络和lstm网络，影响pm
2.5
浓度变化的因素复杂，由pm2.5、其他气态污染物和气象因子构成的多元时间序列可以通过卷积操作学习协变量与预测目标之间的相关性；lstm网络可以处理长序列输入，使用输入的特征矩阵学习时间序列关系，使模型具有更高的准确度，从而提升预测结果的准确性。
[0034]
(4)本发明并通过特征融合的方式将非线性转换卷积块和注意力模块相连接，特征融合可以将不同尺度的特征图信息混合，堆叠的非线性残差连接在提高浅层特征利用率的基础上，增强可提升模型预测能力的特征通道的权重。
附图说明
[0035]
图1为本发明中基于注意力机制的lstm网络的pm2.5浓度预测方法流程图；
[0036]
图2为本发明中基于注意力机制的lstm网络的pm2.5浓度预测模型结构示意图；
[0037]
图3为本发明中堆叠残差网络结构示意图；
[0038]
图4为本发明中注意力模块结构示意图。
具体实施方式
[0039]
下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
[0040]
本发明提出了一种基于注意力机制的lstm网络的pm2.5浓度预测方法，所述方法包括以下内容：以pm2.5为预测的目标污染物构建pm2.5浓度预测模型；采用环境监测的pm2.5浓度数据、其他污染物浓度数据以及气象因子数据对pm2.5浓度预测模型进行训练；
[0041]
获取环境监测的pm2.5的每小时浓度数据，由于其他气态污染物也会对pm2.5的浓度变化产生影响，因此需要同时收集其他污染物浓度数据，其他污染物浓度数据包括pm
10
、co、no2、o3和so2的每小时浓度数据；同时，pm2.5浓度也受气象因子的影响，因此，同时获取气象因子数据；气象因子数据包括温度、湿度、风速、风向和降水量的每小时数据。
[0042]
获取第一时间段的pm2.5浓度数据以及第二时间段的其他污染物浓度数据和气象因子数据，采用训练好的pm2.5浓度预测模型对第二时间段的pm2.5浓度进行预测；如图1、图2所示，对pm2.5浓度预测模型进行训练的过程包括以下内容：
[0043]
s1：对环境监测的pm2.5浓度数据、其他污染物浓度数据以及气象因子数据进行数据预处理；根据预处理后的数据构建多元时间序列。
[0044]
由于采集设备的故障、人工调校数据、传输数据时的数据丢失等原因，数据容易存在缺失现象。为了保证模型更好的学习捕捉时间序列中的时间模式，需要对数据进行预处理，本发明对数据的缺失值进行填充。根据时间序列的变化复杂程度，本发明选用了两种不同的缺失值填充方法：(1)如果缺失值序列变化较为平缓，选用线性填充方法；(2)如果缺失值的序列变化较为剧烈，存在较多的离群值，使用序列中的众数来填充缺失值。
[0045]
为了减少异常数据值对模型的影响，提升模型的学习能力。本发明采用规范化方法即最大最小值规范化方法对数据进行处理，最大最小规范化是一种离散值的标准化方法，是对原始数据的线性变化，将数据映射到[0,1]之间，输入的特征使用最大最小值规范化方法统一量纲，避免了量纲不一造成的影响。
[0046]
根据预处理后的数据进行特征列的拼接，得到多元时间序列。
[0047]
s2：采用二维卷积对多元时间序列进行不同尺度的特征提取，得到不同尺度的特征图。
[0048]
模型中有多个不同的卷积分支，它们的卷积核大小不同；采用不同卷积核的二维卷积对多元时间序列进行卷积操作，得到不同时间序列的时间特征表示；具体的，采用不同大小的卷积核对输入形状为n
t
×
nf的矩阵进行卷积操作，其中，n
t
代表输入的时间步大小，nf代表输入的特征维度大小，本发明中，n
t
的取值可选列表为(3,7,12,24)，nf为输入的特征维度大小，根据数据集的列数或特征集中特征数量灵活确定。当卷积分支使用大小n
t
×
1的卷积核，步长(1,1)时，由于卷积核的长度等于输入的时间步长，相当于沿着特征维度做一维卷积，可以得到每一条空气污染物时间序列的全局时间特征表示。当卷积分支使用大小为的卷积核，步长被设置为(n,1)时，由于卷积核的长度小于输入的时间步长，相当于对于每条单变量时间序列进行局部时间变化信息的提取，得到每一条空气污染物时间序列的局部时间特征表示。
[0049]
采用激活函数、最大池化层对不同时间序列时间特征表示进行处理，得到不同尺度的特征图；具体的，使用rrlu激活函数对不同时间序列时间特征表示进行激活，最后为了保证多个卷积分支的输出形状一致，使用最大池化层进行特征信息的压缩，使多个卷积处理分支最后的输出均为nc×
nf，nc代表卷积过滤器的数量。全局卷积关注长期的时间依赖关系，局部卷积关注局部的时间变化模式，利用多个不同卷积核的卷积核，可以提取不同尺度下多元时间序列时间的特征表示，有效地感知不同时间步下的时间变化效应。
[0050]
s3：对不同尺度的特征图分别进行信息的压缩和非线性变换处理，并将处理后的
特征图分别输入到带有注意力机制的堆叠残差网络中进行处理，得到输出特征；将所有输出特征融合，得到融合特征图。
[0051]
带有注意力机制的堆叠残差网络由多个基本网络单元堆叠而成，每个基本网络单元由注意力模块和单元残差网络连接组成，单元残差网络包括批归一化、一维卷积和relu激活函数。
[0052]
对不同尺度的特征图分别进行压缩和非线性变换处理，得到处理后的特征图；具体的，压缩操作使用二维卷积对原特征图进行信息的压缩；同时为了加强模型的表示能力和泛化性，使用非线性激活函数relu对压缩后的特征图进行非线性变换。
[0053]
使用堆叠的非线性模块可提取更高维的隐式特征，如图3所示，对于每个单元残差网络，首先将从二维卷积网络得到的特征图通道加入高斯噪声，避免模型的过拟合，增强鲁棒性；由于输入层进行了归一化后，在网络训练阶段每一层的数据分布都可能产生变化，为了避免协变量偏移问题，加入高斯噪声处理后再进行批归一化处理；然后使用一维卷积和relu激活函数的组合对数据进行非线性变化，更好的去拟合非线性变化的时间序列；堆叠残差网络对注意力模块得到的特征加权映射后的卷积特征图进行处理，得到输出特征，具体的，对于堆叠残差网络的每一个基本单元，注意力模块将基本单元的输入矩阵进行特征加权并使用矩阵乘法进行映射操作，接着与非线性模块的输出横向拼接得到下一个基本单元的输入，通过多个基本单元的特征提取和拼接，得到最终的输出特征。基于上述组件组成的基本模块进行多层的堆叠可提升提取能力。
[0054]
注意力模块以残差连接的方式嵌入到堆叠的残差网络中，利用神经网络反向传播更新梯度的特点对不同的卷积特征图通道进行自适应加权；其处理过程包括：
[0055]
如图4所示，注意力模块使用squeeze-and-excitation即压缩激励网络结构，该网络结构通过压缩、激励和特征重标定三个环节完成对卷积特征图通道的注意机制。
[0056]
压缩：使用了两种不同的通道压缩操作；将形状为t
×
f的输入分别输入到全局平均池化层和全局最大池化层进行压缩处理，得到平均池化特征和最大池化特征(均为形状为t
×
1的输出)，其中t为输入数据的时间步长，f为输入数据的特征列的个数；全局平均池化层把每个通道压缩为一个描述符代表该通道的平均池化特征，全局最大池化层可获得每个通道的最大池化特征。pm
2.5
[0057]
由于成因复杂，诱因繁多导致其变化呈现不规律性，不同的应用场景甚至相同的背景不一样的自然条件，都会产生不一样的序列曲线。当提取时序特征时，需要关注到各种突发因素造成的时间序列局部突变。本发明将原有的仅使用最大池化特征提取特征修改为同时使用最大池化与平均池化特征两个分支同时提取特征。对于曲线变化平缓，平均池化能够很好的描述平均变化量，而当曲线局部突变明显，单独使用平均池化则会引起误差。在使用平均池化的同时使用最大池化特征，可以有效的提取局部变化剧烈的特征，同时降低了离群值或异常值对模型整体的预测性能带来得误差。计算公式为：
[0058]
[0059][0060]
其中，a表示平均池化特征，b表示最大池化特征，uc(i,j)表示卷积特征图中的数据单元(i,j)，w表示卷积特征图的宽度，h表示卷积特征图的高度。
[0061]
激励：将平均池化特征和最大池化特征输入到多层共享感知机中，得到两个分支通道注意力特征图；其中，多层共享感知机由一个全连接层连接激活函数后再串联两个全连接层组成，第一个串联的全连接层将激活后的输入恢复为原来的通道数，第二个串联的全连接层做线性变换，加强表示能力；
[0062]
将平均池化特征和最大池化特征输入到多层共享感知机中做非线性变化，输出两个分支通道注意力特征图；将两个分支通道注意力特征图相加后，使用sigmoid函数进行将数值范围限制到[0,1]，保证能够注意到多个有用的特征图通道，计算公式为：
[0063]
t＝f
ex
(a，b，w)＝σ(g(a，b，w))＝σ(w3δ(w1w2a)+w3δ(w1w2b))
[0064]
其中，t表示注意力特征图，σ表示sigmoid函数，δ表示relu激活函数，a表示提取的平均池化特征，b表示提取的最大池化特征，w1表示一个降维矩阵，w2表示一个升维矩阵，w3表示一个线性映射矩阵，f
ex
()表示压缩通道并映射回原卷积的过程，w表示权重矩阵，g()表示学习两种不同的压缩方法下通道相关性的过程。
[0065]
特征重标定：将所有注意力特征图映射到原特征图中得到加权映射后的卷积特征图，实现通道的重要性自适应注意力，公式为：
[0066][0067]
其中，表示特征加权映射后的卷积特征图，f
scale
()表示卷积映射操作，tc表示各卷积特征通道的权重标量，uc表示卷积特征图。
[0068]
将每个带有注意力机制的堆叠残差网络分支的输出即输出特征进行横向拼接，得到融合特征图。
[0069]
本发明的残差连接将注意力模块和卷积模块相联系，不同于经典残差连接中将上层网络的输入直接与输出进行非线性的叠加的做法，而是类似稠密连接网络的做法将两者进行直接拼接，在提高浅层特征的利用率的同时，也能保证信息可以随着网络层数的加深而增多。堆叠的特征学习网络块可以从上游的多尺度卷积输入中得到更深层表示的特征图，并能有效建立特征图通道之间的依赖关系，注意对预测结果有效的通道，增强pm2.5预测结果的准确性。
[0070]
s4：将融合特征图输入到lstm网络中进行处理，得到pm2.5浓度预测结果。
[0071]
lstm(长短期记忆网络)是一种长短期记忆的储存单元，是循环神经网络的一个变种，对于基本rnn来说，它能够处理一定的短期依赖。当输入的时间序列过长，后部时间序列难以反向传播到前面的序列，梯度被浅层的梯度主导，因而难以学习长时间的依赖。此外，还可能因为过深的网络导致梯度爆炸。lstm为了解决上述问题，引入了输入门、遗忘门、输出门来保持细胞状态，lstm各个细胞之间通过输入门和遗忘门的信息相连接，这允许lstm可以长期记忆一些时间步的细胞状态。lstm的公式如下：
[0072]ft
＝σ(wf·
[h
t-1
，x
t
]+bf)
[0073]it
＝σ(wi·
[h
t-1
，x
t
]+bi)
[0074]ot
＝σ(wo·
[h
t-1
，x
t
]+bo)
[0075][0076][0077]ht
＝o
t
*tanh(c
t
)
[0078]
其中，f
t
,i
t
,o
t
分别是遗忘门，输入门和输出门的门控信号，遗忘门控制历史数据长度对细胞状态的影响，决定上一时刻中哪些信息从单元状态中遗忘；输入门控制历史数据的可见长度，决定单元状态中被保留的信息；输出门控制对外输出的信息数量。c代表细胞状态，代表当前输入的单元状态，x
t
为细胞输入，h
t
为细胞输出，w，b分别为算法中各个门的权重和偏移量。具体为：wf为遗忘门中的权重，h
t-1
为上一个门结构的输出，x
t
为t时刻的输入，bf为遗忘门中的偏置；wi是输入门中的权重，bi为输入门中的偏置；wo是输出门中的权重，bo是输出门中的偏置，是细胞单元状态更新值，wc是细胞单元网络中的权重，bc是细胞单元网络中的偏置，c
t-1
是上一个时刻(t-1)的细胞状态。
[0079]
lstm输入时间的步长需要包含一个或一个以上的周期长度，若周期不明显则需加长输入的时间窗口。最后使用lstm输出的时间依赖特征作为输出。
[0080]
融合特征图在lstm网络中的流向是：接收由上层特征提取网络得到的特征矩阵即融合特征图，输入由lstm cell链接成的循环神经网络，lstm cell中的输入门控制历史数据的可见长度，决定门和遗忘门在梯度下降的过程中，判断保留或遗忘的数据，对输入序列与标签之间进行建模拟合，最后通过输出门得到隐藏层状态并输入下一个lstm cell。数据随着依次串联的lstm cell流动，最后得到lstm的输出值。
[0081]
为了加快梯度下降求解最优解的速度，对神经网络的输入使用了最大最小归一化方法，因此为了得到实际量纲下的预测的结果，将对lstm网络的输出进行反归一化，将值域在(0,1)的预测输出数据，反映射回真实值，输出下一时刻的pm
2.5
小时浓度的预测结果；训练完成后，得到训练好的pm2.5浓度预测模型。
[0082]
获取第一时间段的pm2.5浓度数据以及第二时间段的其他污染物浓度数据和气象因子数据，采用训练好的pm2.5浓度预测模型对第二时间段的pm2.5浓度进行预测；利用pm
2.5
预测结果，可更有效的对未来浓度走势进行预警、提前对污染物、废气排放等的管理做出有指导意义的意见，可及时对城市空气质量发出预警并进行调控。
[0083]
对本发明进行评价：将训练数据集送入预测模型，计算获得pm
2.5
数据的预测值，其中，训练数据集为某地区的空气污染物浓度和气象因子数据集；数据集按照0.6,0.2,0.2的比例划分为训练集，验证集和测试集。向训练好的模型中输入训练集数据，得到最终的pm
2.5
预测结果。
[0084]
为了衡量模型间的预测结果，使用mae，corr和rmse三个通用回归指标来评价各个模型在数据集上的表现，其中mae与rmse分别是平均绝对误差和均方根误差，用于衡量真实值与预测值的误差，corr为相关系数，用于描述两个序列的相关性程度。mae和rmse越小，corr越大则代表预测的越准确。表1为各个模型的实验结果，其中，gru为一种使用门控循环单元进行时间序列建模和预测的神经网络模型，tcn为一种融合了扩张因果卷积和残差连接网络的用于时间序列预测的神经网络模型，ac-lstm为基于时间步注意力机制的lstm神
经网络模型，ca-lstm为本发明的基于通道注意力机制的lstm神经网络模型；
[0085]
表1本发明与对比模型的实验结果对比
[0086][0087]
如表1所示，从表1可以看出，本发明在3到12时间步中mae、rmse两个误差评价指标均为最低，corr相关系数的指标均为最高，其中在时间步为3的预测中，分别比gru模型、tcn模型、ac-lstm模型的mae指标分别平均提高5.5％，3.60％和8.8％；rmse指标分别提高了6.01％，3.10％，8.60％；corr系数也分别提高了5.5％，2.90％，6.90％。在6-12步预测中也能保持精度提升2％-3％左右。实验数据证明本发明提出基于通道注意力机制的lstm神经网络模型是有效的。
[0088]
以上所举实施例，对本发明的目的、技术方案和优点进行了进一步的详细说明，所应理解的是，以上所举实施例仅为本发明的优选实施方式而已，并不用以限制本发明，凡在本发明的精神和原则之内对本发明所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

温馨提示：如需要了解以上技术内容，可致电客服18980857561，028-87023516

上一篇：开关电源及其故障预测方法、装置、介质、芯片、系统与流程

下一篇：基于3D打印的一体化结构冷气微推进系统设计方法

栏目索引