您好,欢迎进入科技论文网!

热门分类 / Popular classification

您所在的位置:主页 > 科技技术论文 > 光伏技术论文 >

基于图神经网络多智能体强化学习的电力-交通融合网协同优化运行

时间:2023-03-16 08:46来源:未知 作者:mac 点击:
摘 要: 针对多重不确定性因素下配电系统、交通系统和电动汽车动态交互的电力-交通融合网序贯协同优化问题,提出一种基于图神经网络多智能体强化学习的电力-交通融合网协同优化方法。首先,基于图理论方法将电动汽车间的相互影响关系转换为一种动态网络图模
  
摘    要:针对多重不确定性因素下配电系统、交通系统和电动汽车动态交互的电力-交通融合网序贯协同优化问题,提出一种基于图神经网络多智能体强化学习的电力-交通融合网协同优化方法。首先,基于图理论方法将电动汽车间的相互影响关系转换为一种动态网络图模型,采用一种基于注意力机制的图神经网络多智能体强化学习算法求解电动汽车充电引导策略,探讨电动汽车多智能体间的相互影响作用。然后,在含可再生能源出力的主动配电网中采用二阶锥优化及对偶优化理论对配电网最优潮流进行求解,得到配电网节点边际电价,研究电力和交通系统的动态交互特性。最后,在某区域108节点交通网络和IEEE 33节点电力系统上验证所提方法有效性。
 
关键词:电力-交通融合网;图神经网络;多智能体强化学习;电动汽车;节点边际电价;
 
Collaborative Optimization Operation of Integrated Electric Power and Traffic Network
Based on Graph Neural Network Multi-agent Reinforcement Learning
JIANG Changxu LU Yuejun SHAO Zhenguo LIN Junjie
College of Electrical Engineering and Automation, Fuzhou University (Fujan Smart Electrical
Engineering Technology Research Center)
 
Abstract:Aiming at the sequential collaborative optimization problem of the electric power and traffic network integration network (IETN) with dynamic interaction of power distribution system, transportation system and electric vehicle under multiple uncertain factors, a collaborative optimization method for IETN based on graph neural network multi-agent reinforcement learning is proposed to solve the above problems. Firstly, the interaction relationship among electric vehicles is converted into a dynamic network graph model based on graph theory. A graph neural network multi-agent reinforcement learning algorithm based on attention mechanism is proposed to solve the charging navigation strategy of electric vehicles, so as to explore the mutual influence among electric vehicles. Then, the optimal power flow of distribution network considering the renewable energy output in an active distribution network is solved, and the marginal price of distribution network node is obtained by the second-order cone optimization and dual optimization theory, so as to study the dynamic interaction characteristics of power and transportation systems. Finally, the simulation verification is carried out on a 108-node traffic network and the IEEE 33-node power system in a certain area.
 
Keyword:Integrated electric power and traffic network; graph neural network; multi-agent reinforcement learning; electric vehicle; locational marginal price;
 
0 引言
近年来,在全球能源危机日益严重和环境问题不断恶化的背景下,以电动汽车为代表的新能源汽车因具有高效、节能、低噪声和零排放等优势被认为是解决化石能源危机与城市污染的重要举措之一[1,2]。预计2025年我国将实现新能源汽车新车销售量占汽车新车销售总量的20%,2035年纯电动汽车成为新销售车辆的主流,公共领域用车全面电动化的目标[3,4]。
 
随着电动汽车规模化运行,电力系统和交通系统将会存在许多的交互融合,形成电力-交通融合网(integrated electric power and traffic network, IETN)。目前,国内外学者对IETN协同运行和优化等相关问题进行了广泛研究。文献[5,6]基于充电站充电服务定价模型对电动汽车进行充电引导以实现IETN系统综合社会效益最大化。文献[5]提出了一种状态电价策略引导电动汽车在高速公共服务区进行快速充电。但是该方法将电价简单地分为闲电价和忙电价,并不能较准确的反映充电电价与电动汽车排队长度和充电负荷之间的关系。针对该问题,文献[6]根据电动汽车快充负荷和充电站负荷阈值建立电动汽车充电站充电电价函数,以用户充电总成本最小为目标引导用户选择快速充电站。文献[7-10]基于Dist-Flow潮流模型和(混合)用户均衡模型分别对电力系统最优潮流和交通流分布进行建模,以此构建IETN系统协同优化模型,并采用混合整数二阶锥优化、最优响应分解算法等算法对IETN优化模型进行求解。文献[11]基于多代理系统构建了一种考虑电力和交通系统交互的电动汽车充电引导策略,该充电引导策略以电动汽车时间消耗和充电总成本最小为目标,采用分布式最小/最大一致性和偏差最小一致性算法进行求解。
 
然而,以上针对IETN的研究属于确定性需求下的静态优化问题,没有考虑到IETN多种主体、多重不确定性因素在连续时间尺度上的耦合关系,因此其获得的优化决策存在较大的片面性。实际上,IETN涉及电动汽车、电力系统和交通系统等多个主体,包含了多种随机不确定因素。多个主体相互作用、多重随机不确定因素及其耦合关系使得厘清电力和交通系统的交互影响机理以及解决IETN协同优化变得更加困难[12,13]。为了更好地考虑电动汽车充电时间、充电需求、可再生能源间歇性和充电电价等不确定性因素,有学者采用强化学习(reinforcement learning, RL)和深度强化学习(deep reinforcement learning, DRL)方法对电力,交通系统及其耦合系统进行优化求解[14,15,16,17]。RL和DRL均属于免模型算法,智能体通过“试错”的方式根据环境反馈的奖惩信号对行为策略进行更新,旨在获得最大的长期累计回报。相比于传统的数学优化方法存在大量假设和计算效率低的问题,该类方法非常适用于解决未知环境状态下连续时间尺度的复杂随机决策问题。文献[14]在考虑抵达充电站时间不确定性和充电电价不确定性情况下,提出一种免模型的线性强化学习方法对电动汽车充电功率和充电站充电电价进行优化。文献[15]在考虑交通状况、电动汽车充电等待时间和充电电价等多重不确定因素下,构建了以电动汽车的行驶时间和充电成本最小的双层随机优化模型,提出一种基于DRL的电动汽车充电引导优化方法对该模型进行求解。然而,文献[14]和[15]仅针对电网侧的定价策略或者电动汽车侧充电引导问题进行了研究,并没有考虑电力-交通融合网的动态交互以及协同优化,同时也没有考虑电动汽车间的交互影响,缺乏详细的电动汽车交互影响模型。文献[16,17]在电力-交通融合网背景下构建了车-站-路-网的多目标模型,提出一种图神经网络强化学习方法对电动汽车充电站进行决策,但是该方法基于最短路径算法计算前往充电目的地时间成本,没有考虑到道路交通情况对充电路径的影响。此外,其仅对电动汽车充电最优位置进了优化,没有对电力系统的最优经济调度进行优化求解,即没有考虑到电动汽车充电负荷变化和可再生能源出力对电力系统经济调度的影响及其相互作用。
 
为了解决以上问题,本文提出了一种基于图神经网络多智能体强化学习的IETN协同优化方法。首先,基于图理论方法将电动汽车间的相互影响关系转换为一种动态网络图模型,采用一种基于注意力机制的图神经网络多智能体强化学习来处理不规则非欧式结构图模型并制定电动汽车充电引导策略,以此研究电动汽车多智能体间的相互影响作用。然后,在考虑可再生能源出力的主动配电网基础上,通过二阶锥优化及对偶优化理论对配电网最优潮流进行求解并得到配电网节点边际电价,研究电力和交通系统的动态交互特性以及IETN协同优化。最后,在某区域108节点交通网络和IEEE 33节点电力系统上进行了仿真验证。研究结果表明所提出的方法在考虑IETN多种不确定性因素的情况下,能够有效地降低电动汽车充电总成本,实现电动汽车以及电力系统协同优化调度。
 
1 电动汽车充电引导数学模型
电动汽车充电引导行为涉及交通、电力和电动汽车等多个主体,包含了大量的不确定性因素,如电动汽车初始充电剩余电量(state of charge, SOC)不确定性,交通路况的不确定性和充电排队时间不确定性等,这些不确定因素造成电动汽车充电行为也具有较强的不确定性。电动汽车需要进行充电时,其根据当前车辆SOC、交通系统和充电站状况确定最优的充电路线和充电站进行充电,目的是使得电动汽车充电花费的时间成本和充电成本最小。电动汽车充电引导数学模型可以构建为[18]:
 
Ci,c,t=wiTi,c,t+Fi,c,t(1)
 
式中,wi表示第i辆电动汽车用户的单位时间价值;Ti,c,t和Fi,c,t分别表示时刻t第i辆电动汽车前往充电站c所花费的时间成本和充电成本。
 
1.1 时间成本模型
电动汽车i在时刻t前往充电站c进行充电时所需的时间成本Ti,c,t如式(2)所示:
 
Ti,c,t=Troadi,c,t+Twaiti,c,t+Tchargingi,c,t(2)
 
式中,Troadi,c,t表示时刻t时第i辆电动汽车前往充电站c路途上所需时间;Twaiti,c,t和Tchargingi,c,t表示时刻t时第i辆电动汽车在充电站c所需的充电等待时间和充满电所需的充电时间。
 
根据美国联邦公路局(bureau of public roads, BPR)的研究,电动汽车在路段a的通行时间与车流量之间的关系可以表示为[19]:
 
ta,t=t0a,t[1+0.15(na,tca)4],       ∀a∈E(3)
 
式中,na,t表示时刻t路段a上的电动汽车数量;ca和t0a,t分别表示路段a的容量上限和时刻t电动汽车自由通行时间。由此可以得到第i辆电动汽车在通过路径L时前往充电站c所需时间Troadi,c,t,即
 
Troadi,c,t=∑a∈Lta,t(4)
 
第i辆电动汽车的充电等待时间Twaiti,c,t通过式(5)计算:
 
Twaiti,c,t={0,                                                                                           nwaitc,t≤0Trej,c,t+Tavg⋅⌊nwaitc,t/Cc⌋,          nwaitc,t>0(5)
 
式中,nwaitc,t表示电动汽车到达充电站c时站内等待充电的电动汽车数量;Tavg表示电动汽车平均充电时长;Cc表示充电站c中配置的充电桩数量;⌊⋅⌋表示向下取整操作;⌊nwaitc,t/Cc⌋表示电动汽车等待充电的轮数;Trej,c,t表示在第c个充电站内位于第j位的电动汽车剩余充电时间(从小往大排序),其中j=nwaitc,t%Cc+1,%表示取余操作。式(5)表示在充电站c中电动汽车i的充电等待时间根据站内排在第j位的电动汽车剩余充电时间和充电轮数进行估计。
 
第i辆电动汽车的充电时间Tchargingi,c,t通过式(6)计算:
 
Tchargingi,c,t=(1−Si,c,t)EcapiηPcharging(6)
 
式中,Si,c,t表示时刻t时第i辆电动汽车达到充电站c时的剩余电量SOC;η表示充电功率因素;Ecapi表示第i辆电动汽车电池容量;Pcharging表示电动汽车充电的额定功率。
 
1.2 充电成本模型
电动汽车i在时刻t时前往充电站c进行充电时所产生的充电成本Fi,c,t如式(7)所示:
 
Fi,c,t=λc,t(1−Si,c,t)Ecapi/η(7)
 
式中,λc,t表示时刻t时充电站c的充电电价,该值由第3节的配电网节点边际电价模型通过最优潮流模型得到。
 
2 基于图神经网络多智能体强化学习的电动汽车充电引导策略
本文的电动汽车充电引导策略主要对电动汽车充电路径进行优化,如文献[20,21]。由于电动汽车充电行为涉及交通状况和充电电价等多重不确定性因素,为了降低各种不确定性因素对预期目标的影响,人们通常会注重短期的利益,即主要考虑就近时间、就近距离等各种因素。因此,本文假设邻近电动汽车其充电路径和充电目的地选择相比于距离较远的电动汽车对充电引导策略的影响更大。
 
为了更好地描述这种关系,本文将研究区域中的电动汽车看作智能体,并将其视为节点n∈N;将两辆在同一条道路上或者距离在某一半径内的电动汽车视为一条边e∈E。通过图理论的方式构造图网络模型GT=(N, E),以此研究电动汽车用户间的相互影响,制定更贴合实际和合理的电动汽车充电引导策略。
 
随着电动汽车的运行,电动汽车间的连接关系也在不断发生变化,即图网络GT在不断变化,为了处理这种图结构数据及其不断变化的连接关系,提出了一种基于图神经网络多智能体强化学习算法(graph multi-agent reinforcement learning, GMARL)对电力-交通融合网进行协同优化运行研究。其中,图神经网络算法采用图注意力网络(graph attention network, GAT)[22],用于特征提取和处理这种不规则非欧式结构数据;多智能体强化学习算法采用深度Q网络(deep Q network, DQN)算法[23,24],用于对电动汽车充电引导策略进行优化决策。
 
2.1 局部观测马尔科夫决策过程
本文将电动汽车充电引导问题构造为一个部分可观测马尔科夫决策过程(partially observable markov decision process, POMDP)。POMDP仅考虑有限辆电动汽车的信息,在构建神经网络时能够有效降低神经网络规模,从而加快算法的计算速度和收敛速度。通常,POMDP问题被定义为一个六元组<S,X,A,R,T,γ>,其中包括环境状态s∈S,电动汽车局部观测空间xi∈X1:N,行为空间ai∈A1:N,立即奖励函数ri(x,a)∈R1:N,状态转移函数T(s,a1:n,w),其中w表示环境中的多种不确定性因素,γ∈[0,1]表示折扣因子。为了更加及时地对电动汽车的充电引导策略进行优化决策,时间间隔设置为Δt=30 s。
 
POMDP过程如下所示:首先,时刻t时电动汽车智能体i通过观察环境得到观测状态xi,t,然后根据策略π(xi,t)选择一个行为动作ai,t,该动作作用于系统环境后,根据状态转移函数T移动到下一状态,同时电动汽车智能体i获得立即奖励函数ri,t和一个新的局部观测xi,t+1。以上过程不断持续,每个电动汽车智能体i都会产生观测状态xi,t、行为ai,t和奖励函数ri,t:τi=xi,1,ai,1,ri,1,xi,2,....,ri,T,并且每个电动汽车智能体i最大化累计期望回报Ri=∑Tt=0γtri,t,时间T=24 h。下面对POMDP中观测状态xi,t、行为ai,t和奖励函数ri,t进行详细介绍。
 
2.1.1 观测状态
电动汽车智能体i在不同的位置根据其自身的信息EEVi,t、接收到的交通信息EROi,t、近邻电动汽车信息ENEi,t以及从充电站接收到的信息ECSt制定合适的电动汽车充电引导策略。POMDP的状态xi,t可以表示为:
 
xi,t=[EEVi,t,EROi,t,ENEi,t,ECSt](8)
 
EEVi,t=[hnexti,t,Iroadi,t,vi,t,Si,t](9)
 
EROi,t=[hstarti,j,t,hendi,j,t,lroadi,j,t,nEVi,j,t]j∈J(10)
 
ENEi,t=[hnexti,k,t,Iroadi,k,t,vi,k,t,Si,k,t]k∈K(11)
 
ECSt=[λc,t,nEVc,t]c∈CS(12)
 
其中,第i辆电动汽车状态EEVi,t包括电动汽车前往充电站充电时通过该条路径中的下一节点hnexti,t、道路编号Iroadi,t、电动汽车行驶速度vi,t和剩余电量Si,t,其中电动汽车行驶速度vi,t和开始充电时剩余电量Si,t为随机变量;近邻交通道路信息状态EROi,t包括与电动汽车i所在路段下一节点hnexti,t相连道路j的起始节点hstarti,j,t、末节点hendi,j,t、道路长度lroadi,j,t以及道路上的电动车数量nEVi,j,t,其中道路上的电动车数量nEVi,j,t代表交通流量信息,为随机变量;J表示与电动汽车i所在路段下一节点hnexti,t相连的节点集合;近邻电动汽车状态ENEi,t包括各近邻电动汽车k的状态,如与第i辆电动汽车邻近的第k辆电动汽车下一节点hnexti,k,t,其所在的道路编号Iroadi,k,t、电动汽车行驶速度vi,k,t和剩余电量Si,k,t;K表示近邻电动汽车集合;充电站信息ECSt包括各充电站的充电电价λc,t和充电站中电动汽车数量nEVc,t,由于电动汽车充电行为具有一定的随机性,同时加上风电和光伏出力的随机性,从而使得充电站的充电电价λct和充电站中电动汽车数量nEVc,t具有一定的随机性,因此这两个变量为随机变量。
 
从以上可知,本文涉及的不确定性因素主要包括道路交通流量、电动汽车行驶速度、电动汽车开始充电时剩余电量和充电电价等多种不确定因素。
 
2.1.2 动作行为
电动汽车充电引导策略由一系列动作组成,即电动汽车在当前状态下选择不同的道路前往充电站。不同路径其行驶时间、距离以及车速各异,会影响电动汽车达到充电站时间,由此造成电动汽车接入充电站的时间、充电等待时间等都不一样。本文电动汽车的行为ai,t可以表示为:
 
ai,t={0,                   hcuri,t≠hnexti,tlne,j,          hcuri,t=hnexti,t,j∈Mne(13)
 
式中,hcuri,t和hnexti,t分别表示时刻t电动汽车i当前位置和电动汽车下一节点位置;lne,j表示电动汽车在节点ne时选择第j条路径前往充电站;Mne表示与节点ne相连的路径集合。式(13)表示当电动汽车i没有到达下一个节点hnexti,t时,即hcuri,t≠hnexti,t,电动汽车不进行决策优化,即保持上一个行为动作;只有当电动汽车达到下一个节点hnexti,t,即hcuri,t=hnexti,t,此时电动汽车智能体i在Mne条路径中选择其中一条,如第j条路径,用lne,j表示。
 
2.1.3 奖励
当电动汽车未到达充电站时,即hcuri,t≠htari,t,其奖励函数设置为0。一旦电动汽车到达充电站,即hcuri,t=htari,t,其奖励函数根据充电引导数学模型式(1)可以定义为:
 
ri,t=wi(Troadi,c,t+Twaiti,c,t+Tchargingi,c,t)+                                                                                λc,t(1−Si,c,t)Ecapi/η(14)
 
2.2 图神经网络多智能体强化学习算法
2.2.1 图神经网络算法
通过以上分析可知,为了更好地考虑电动汽车间的相互作用对充电行为的影响,本文将区域内的电动汽车及其交互关系构建了一种动态图模型结构,并采用一种图注意力网络GAT[22]对该非欧式结构的图模型数据进行特征提取,提取的特征以便进一步被DQN利用制定最优的充电引导策略。与传统的图卷积神经网络平等对待其相邻的节点不同,图注意力网络GAT可以为每个邻居分配不同的注意力权重,从而识别出对研究对象影响力较大的邻居,并赋予其一个较大的权重,以此改善模型的准确性。
 
假设各智能体状态xi的特征维度均为F,则第i个智能体的特征向量可以表示为xi∈RF。图网络模型GT=(N, E)中所有智能体的特性向量集合可以表示为X={xi∈RF|i=1,2,...,N}。图注意力网络的目的是输出智能体的新的特征集合,即X′={x′i∈RF′|i=1,2...,N}。
 
电动汽车智能体j对智能体i的重要性可以采用注意力机制公式进行计算,如式(15)所示:
 
αij=exp(Leaky(aT[Wxi||Wxj]))∑k∈Niexp(Leaky(aT[Wxi||Wxk]))(15)
 
式中,αij表示智能体j对智能体i的注意力系数;Leaky表示LeakyReLU激活函数;Ni表示智能体i的邻居集合;W∈RF'×F表示在每个智能体上进行线性变换的权重矩阵;a∈R2F′表示权重向量,其将输入向量映射到R;∥表示合并操作。
 
得到归一化注意系数αij后,计算其与相邻智能体Ni对应特征的线性组合,最终通过非线性激活函数σ得到每个智能体的输出特征向量:
 
x′i=σ(∑j∈NiαijWxj)(16)
 
为了稳定图注意力网络的学习过程,对式(15)-(16)调用K组相互独立的注意力机制层,并将K组注意力的输出进行平均操作,可以得到最终注意力机制层的输出,如式(17)所示。
 
x′i=σ(1K∑k=1K∑j∈NiαkijWkxj)(17)
 
2.2.2 神经网络结构设计
图神经网络多智能体强化学习算法的神经网络结构如图1所示。从图中可以得知,神经网络的输入包括电动汽车相关特征向量X以及由电动汽车关系构造的邻接矩阵A。电动汽车相关特征向量X先经过全连接层进行特性处理后,然后与邻接矩阵A一起输入到图卷积神经网络中进行处理。本文采用两层图卷积网络对输入的特性进行提取,并全部采用ReLU非线性激活函数进行处理,最后通过全连接层对动作进行输出,其输出的动作行为根据动作值函数进行求取。
 
2.2.3图神经网络多智能体强化学习训练过程
强化学习算法通过智能体与环境不断交互,根据环境的反馈智能体不断调整自身行为策略,形成一种从状态到动作的映射,使得智能体从环境中获得的平均累积奖励值Ri,t最大。多个智能体在环境中通过协同合作,通过环境的反馈调整行为策略,其目的是使得智能体奖励之和最大,如式(18)所示。
 
Rt=∑Ni=1ri,1+γri,2+....+γTri,T=∑Ni=1∑Tt=0ri,t(18)
 
本文提出的图神经网络多智能体强化学习算法结合了GAT和DQN的特性,能够有效地解决区域内多智能体交互影响的问题。DQN是强化学习中一种重要的方法,它结合了深度学习强大的非线性处理能力和特征提取能力以及强化学习的序贯决策能力[23,24]。深度Q网络算法通过神经网络对真实的状态-动作值函数Q(x,a;θ)进行拟合估计,根据环境反馈奖励值采用梯度下降的方法不断调整神经网络参数θ以寻找满足最大回报的最优策略。图神经网络多智能体强化学习损失函数可以构造为:
 
⎧⎩⎨L(θt)=Ex,a,r,x'∼D[(yGMARLt−Q(x,a;θt))2]yGMARLt=r+γmaxa'∈AQ(x',a';θ′t)(19)
 
式中,x、a、x'和a'分别为当前智能体所处状态、动作行为、下一步状态和下一步动作行为;0≤γ≤1表示折扣因子,其反映未来Q值对当前动作的影响;yGMARLt表示在目标网络θ′t下的状态-动作值函数,其参数每经过一定的步数根据当前网络θt进行更新。
 
当GMARL采用随机梯度下降方法对图神经网络参数进行更新时,要求样本服从独立同分布条件,以保证样本所含噪声相互抵消,从而可以在一定程度上使得算法收敛得更快。实际上,智能体与环境交互得到的训练样本并不满足独立同分布假设,为了解决这一问题,GMARL借鉴DQN的方式引入了经验回放机制:将多次交互产生的累积经验样本(x,a,r,x')存放在记忆单元D中,在训练时,从记忆单元D中随机抽取一定数量的样本进行训练,以降低样本数据的相关性及训练数据的方差,提高算法的收敛效率。GMARL算法的训练过程如附录A图A1所示。
 
3 配电网最优潮流模型
电动汽车与配电网交互通过充电站完成,电动汽车充电站连接在电力系统配电网某一个节点上。电力系统配电网模型可以描述为GE=(EN, EL),其中EN和EL分别表示配电网节点和线路集合。传统的配电网呈辐射状形式,其意味着1个节点(除松弛节点外)仅有一个上级节点,节点数和线路数相差1[25]。根据文献[26],基于支路潮流模型的最优潮流(branch flow model-optimal power flow, BFM-OPF)和二阶锥松弛(second order conic relaxation, SOCR)转换,并令I˜ij=I2ij以及U˜ij=U2ij可以得到以下模型:
 
min  ∑j∈EN(aj(pgj)2+bjpgj)+ρP0j(20)
 
s.t. Pij+pgj+pwindj−rijI˜ij=∑k∈π(j)Pjk+pdj,    ∀(i,j)∈EL(21)
 
Qij+qgj+qwindj−xijI˜ij=∑s∈π(j)Qjs+qdj,    ∀(i,j)∈EL(22)
 
U˜j=U˜i−2(rijPij+xijQij)+(zij)2I˜ij,∀(i,j)∈EL(23)
 
∥∥∥∥∥2Pij2QijI˜ij−U˜j∥∥∥∥∥2≤I˜ij+U˜j,∀(i,j)∈EL(24)
 
I˜ij≤I¯2ij,∀(i,j)∈EL(25)
 
U¯¯¯2j≤U˜j≤U¯¯¯2j,∀j∈EN(26)
 
0≤pwindj≤p¯windj,∀j∈EN(27)
 
qwindj=tan(arccos(φwindj))pwindj,∀j∈EN(28)
 
pdj=pdcj+pEVj,∀j∈EN(29)
 
式中,aj、bj表示与节点j相连的发电机的二次煤耗系数和一次煤耗系数;ρ表示向主网购电的电价;P0j表示传输到与松弛节点相连线路的有功功率[7];Pij、Qij表示支路i-j的有功潮流和无功潮流;pgj、qgj表示发电机注入到节点j的有功功率和无功功率;pwindj、qwindj表示风机注入到节点j的有功功率和无功功率;zij=rij+xij表示支路i-j的阻抗;Iij、I¯ij和I¯ij分别表示支路i-j的电流、下限值和上限值;Uj、U¯¯¯j和U¯¯¯j表示节点j电压、下限值和上限值;π(j)表示与节点j相连支路的节点的集合;φwindj表示连接节点j上的风机的功率因素;pdj表示配电网节点j的负荷,其由两部分组成:基础负荷pdcj和电动汽车充电负荷pEVj。
 
上式(20)-(29)构成了松弛后的静态最优潮流基本形式。文献[27]和[28]证明了在目标函数为凸函数和严格递增函数情况下对大部分配电网结构网络SOCR时严格准确的。在这样严格准确性证明下,在时刻t下的节点边际电价λc,t(locational marginal price, LMP)可以通过求解式(21)的对偶变量获得。求解对偶变量λc,t其中一种方式是构造问题(20)-(29)的对偶问题,然后通过该二阶锥规划对偶问题的最优解得到节点边际电价λc,t。另一种方法是采用现有的商业求解器如Mosek, Gurobi等在求解原二阶锥规划问题(20)-(29)的时候,可以同时得到原、对偶变量最优解,以此获得节点边际电价λc,t。
 
基于图神经网络多智能体强化学习的IETN协同优化运行研究计算流程如附录B图B1所示。
 
4 仿真算例
4.1 仿真设置
本文在某市108节点区域交通网络和IEEE 33节点电力系统上进行仿真验证,其拓扑结构图分别如附录C图C1和C2所示[29,30]。配电网典型日负载率曲线如图C3所示,风力发电机典型出力曲线如图C4所示[25,30],其中风力发电的渗透率约为20%。本文经过多次仿真试验对图神经网络多智能体强化学习参数进行优化,其网络结构和超参数设置见附录C表C1。
 
4.2 学习速率α和折扣因子γ选择
学习速率α和折扣因子γ会对GMARL学习效果产生较大影响,可以通过比较奖励函数和损失函数值的大小以及收敛速度判断GMARL算法的好坏。不同学习速率α下GMARL算法的奖励函数和损失函数值如附录C图C5。从图C5(a)可以得知,在学习速率α=1e−2和1e−3时,GMARL算法获得的奖励函数较低,约为学习速率α=1e−4的20%。在学习速率α=1e−4时,其奖励函数值快速上升,然后进入一个平缓上升阶段,最后GMARL算法的奖励函数值趋于稳定。从图C5(b)可以得知,三种学习速率下其损失函数值的变化趋势比较一致,先经历一个小幅的上升,然后逐步下降,最后趋于稳定。结合GMARL算法的奖励函数和损失函数值,最终选择学习速率α=1e−4。
 
不同折扣因子γ下的GMARL算法的奖励函数和损失函数值如附录C图C6所示。图C6(a)的变化趋势和图C5(a)基本一致,但是在折扣因子γ=0.99时,其奖励函数值低于其他折扣因子,并且在后期经历了较大的波动,这主要是由于GMARL算法在某些情况下采取了较差的行为,影响了最优策略的获取,产生了过拟合。从图C6(b)可以得知,折扣因子γ=0.96时可以获得较低的损失函数。综合奖励函数和损失函数值,最终选择折扣因子γ=0.96。
 
4.3 仿真结果及比较分析
假设该区域中汽车保有量为1万辆,电动汽车渗透率和需要充电汽车比例均为10%,可以得到需要充电的电动汽车数量为N=100。采用图神经网络多智能体强化学习算法和最短路径(shortest distance, SD)算法进行充电引导,通过统计得到奖励函数、平均行驶速度、平均充电排队时间、平均充电行驶距离和峰谷差最大值比例如表1所示。
 
从表1中可以得知,相比于SD算法,所提出GMARL算法能够有效地考虑电动汽车间相互影响和充电站的边际成本电价,能够获得更优的策略以获得更大的奖励函数值,降低电动汽车充电总费用。具体地,在GMARL算法下电动汽车平均充电行驶速度为1.097e-2 km/s、充电平均的排队时间为1.0403分钟、峰谷差最大值百分比为69.87%,其优于SD算法下获得的各项指标,其中平均充电排队时间降低了90%。尽管在GMARL算法下单次充电平均行驶距离为7.9838 km,高于SD算法的5.3083 km,但是其获得的单次奖励函数值高于SD算法,表明大部分情况下电动汽车选择更通畅的充电路径而非最短路径前往充电电价更低的充电站进行充电,以此降低电动汽车的充电总成本。
 
在GMARL和SD算法下,电动汽车典型的充电负荷曲线分别如图2和图3所示,其相应的节点边际电价如图4和图5所示。从图2中可以得知,在SD算法下大部分电动汽车会选择离区域中心较近的107号充电站进行充电,因此其充电负荷会远高于其他节点。这将会导致该节点的边际成本电价偏高(如图4所示),进一步会导致电动汽车充电总成本提高,降低电动汽车充电奖励函数值。相比于SD算法,基于GMARL的IETN协同优化算法得到各充电站的负荷量基本一致,表明不会出现大量的电动汽车涌向某一个充电站的情况,此时不会出现充电电价过高的导致增大充电总费用的情况。因此,基于GMARL的IETN协同优化算法能够有效地处理电动汽车在运行过程中的各种不确定性因素,如路网交通流量和电网边际成本电价,能够有效地考虑动汽车间相互影响以获得最优的电动汽车充电路径,从而降低电动汽车充电总成本。
 
为了验证本文提出的GMARL的适应性能,将充电电动汽车数量从50逐渐增加到500,并与SD算法比较各项指标:电动汽车平均奖励值、平均行驶速度、平均行驶距离和充电排队时间指标,如图6所示。从图6中可以看出,随着充电电动汽车数量的增加,电动汽车平均奖励值和平均行驶速度差距不断变大,表明协同优化效果越来越明显。当电动汽车数量EV=100时,其平均充电排队时间减少为最短路径算法的1/10。由于充电站和充电桩规模有限,导致电动汽车充电排队时间都会随着电动汽车充电数量的增多而增加,充电排队时间方面的优势不断下降,此时对奖励函数起主要作用的是路途行驶时间和电动汽车充电费用。
 
4.4 验证对比分析
(1)电动汽车间协作有效性验证
 
为了验证电动汽车间相互影响,将输入的状态xi,t进行相应修改:删除交通道路信息EROi,t和近邻电动汽车状态ENEi,t,仅保留当前电动汽车状态EEVi,t和充电站信息ECSi,t,即
 
xi,t=[EEVi,t,ECSt](30)
 
在学习速率α和折扣因子γ等参数设置保持不变的前提下,不同状态下的GMARL算法的奖励函数和损失函数值如附录C图C7所示。从图C7(a)可以得知,在不考虑电动汽车相互影响状态时,GMARL奖励函数值明显小于全状态下的奖励函数值。此外,在不考虑电动汽车间相互影响状态时,在迭代次数为2e5时损失函数经历了较大的波动,(如图C7(b)所示),从而导致电动汽车充电策略的奖励函数急剧下降,最终影响了最优策略的获取。
 
(2)图神经网络多智能体强化学习有效性验证
 
为了进一步验证GMARL算法的效果,本文将图卷积网络层(如图1所示)全部替换为全连接层,并且设置隐藏层的神经元个数为256,以保证训练的参数量与GMARL算法参数量基本保持一致。GMARL算法和基于全连接层深度强化学习算法的奖励函数和损失函数值如附录C图C8所示。从图C8(a)可以得知,基于全连接层深度强化学习算法其损失函数值随着迭代次数的增加而不断增大,出现发散的情况,其原因主要在于全连接层神经网络很难有效地处理电动汽车间的关系,无法对输入的不规则非欧式结构数据进行有效地信息提取。GMARL算法奖励函数值明显高于基于全连接层深度强化学习算法的奖励函数值,并且其波动性更加小。仿真结果表明,GMARL算法能够较好地对不规则非欧式结构数据进行特性提取,考虑电动汽车间的交互,从而实现多智能体的协同优化运行控制。
 
5 结论
本文结合图神经网络强大的非欧式结构数据特征提取能力和强化学习算法序贯决策能力提出了一种基于图神经网络多智能体强化学习算法以解决考虑多种不确定性因素下的IETN协同优化运行 问题。本方法在某区域108节点交通网络和IEEE 33节点电力系统上进行了仿真验证,证明了该方法的有效性。通过仿真对比分析,可以得出以下结论:
 
(1)提出的IETN协同优化方法相比于最短路径算法其奖励函数和平均行驶速度得到了明显地改善,其平均充电排队时间缩短了90%,能够有效地降低电动汽车充电总成本。
 
(2)提出的IETN协同优化方法能够有效地引导电动汽车充电,在一定程度上避免了大量的电动汽车涌向某一个充电站的情况,提高了充电站设备的利用率的同时,能够有效降低电动汽车充电电价,可以实现电力-交通系统的协同优化。
 
(3)提出的基于图神经网络多智能体强化学习的IETN协同优化方法具有较好的扩展性和适应性,能够适应不同环境下的IETN协同优化。
 
本文初步探索了将多智能体强化学习用于IETN的协同优化,比较了不同算法对IETN的优化效果及其扩展性、适应性。如何构建统一的算法高效求解IETN协同随机优化模型将成为下一步工作的研究重点。
 
附录 A
图神经网络多智能体强化学习算法的训练过程如图A1所示。
 
附录 B
基于图神经网络多智能体强化学习的IETN协同优化运行研究计算流程如图B1所示。具体步骤如下所示:
 
(1)初始化仿真时刻t、神经网络参数θt、θ′t以及电动汽车充电状态xi,t;
 
(2)每隔固定的时间系统根据电动汽车充电数量更新其充电负荷和电力系统基础负荷,在获得可再生能源出力如风电机组的出力条件下基于(21)-(30)二阶锥模型,采用Gurobi求解配电网节点边际成本LMP,得到充电站充电电价λc,t;
 
(3)基于图神经网络多智能体强化学习算法根据电动汽车和交通网络相关状态采用ε−Greedy算法生成电动汽车充电引导行为ai,t;
 
(4)对电动汽车状态如运行状态、决策状态和充电状态进行判断:
 
1)运行状态:若电动汽车没有达到交叉路口并且电动汽车没有抵达充电站,此时电动汽车处于运行状态,即电动汽车已经在前往充电站的某一条边上,此时需要更新电动汽车的位置信息、行驶速度和剩余电量SOC等信息;
 
2)决策状态:若电动汽车达到交叉路口但是该节点没有充电站,此时电动汽车处于决策状态,电动汽车智能体将根据上一步骤决策出的行为ai,t转移到下一条行驶道路上,以前往充电站进行充电,在这一步骤中需要对道路状态如道路上电动汽车数量、行驶理想速度和电动汽车状态如行驶速度、电动汽车所在道路、行驶距离等信息进行更新;
 
3)充电状态:若电动汽车抵达充电站,此时电动汽车处于充电状态。当充电站中的电动汽车数量超过充电桩数量时,电动汽车需要排队等待,直到有空余的充电桩,此步骤需要更新电动汽车SOC、充电等待时间和充电时间等信息。
 
(5)根据式(14)对电动汽车采取的行为进行奖励函数ri,t计算,并将POMDP转移到下一状态x′i,t;
 
(6)将(xi,t,ai,t,ri,t,x′i,t)存放在记忆单元D中,并采用随机梯度方法对图神经网络多智能体强化学习的参数进行训练;
 
(7)对电动汽车充电负荷信息进行更新,并令t=t+∆t;
 
(8)判断时刻t是否小于T?若是,则跳转步骤(2);否则,结束仿真,得到不同状态xi,t下的最优的行为策略ai,t。
 
附录 B
基于图神经网络多智能体强化学习的IETN协同优化运行研究计算流程如图B1所示。具体步骤如下所示:
 
(1)初始化仿真时刻t、神经网络参数θt、θ′t以及电动汽车充电状态xi,t;
 
(2)每隔固定的时间系统根据电动汽车充电数量更新其充电负荷和电力系统基础负荷,在获得可再生能源出力如风电机组的出力条件下基于(21)-(30)二阶锥模型,采用Gurobi求解配电网节点边际成本LMP,得到充电站充电电价λc,t;
 
(3)基于图神经网络多智能体强化学习算法根据电动汽车和交通网络相关状态采用ε−Greedy算法生成电动汽车充电引导行为ai,t;
 
(4)对电动汽车状态如运行状态、决策状态和充电状态进行判断:
 
1)运行状态:若电动汽车没有达到交叉路口并且电动汽车没有抵达充电站,此时电动汽车处于运行状态,即电动汽车已经在前往充电站的某一条边上,此时需要更新电动汽车的位置信息、行驶速度和剩余电量SOC等信息;
 
2)决策状态:若电动汽车达到交叉路口但是该节点没有充电站,此时电动汽车处于决策状态,电动汽车智能体将根据上一步骤决策出的行为ai,t转移到下一条行驶道路上,以前往充电站进行充电,在这一步骤中需要对道路状态如道路上电动汽车数量、行驶理想速度和电动汽车状态如行驶速度、电动汽车所在道路、行驶距离等信息进行更新;
 
3)充电状态:若电动汽车抵达充电站,此时电动汽车处于充电状态。当充电站中的电动汽车数量超过充电桩数量时,电动汽车需要排队等待,直到有空余的充电桩,此步骤需要更新电动汽车SOC、充电等待时间和充电时间等信息。
 
(5)根据式(14)对电动汽车采取的行为进行奖励函数ri,t计算,并将POMDP转移到下一状态x′i,t;
 
(6)将(xi,t,ai,t,ri,t,x′i,t)存放在记忆单元D中,并采用随机梯度方法对图神经网络多智能体强化学习的参数进行训练;
 
(7)对电动汽车充电负荷信息进行更新,并令t=t+∆t;
 
(8)判断时刻t是否小于T?若是,则跳转步骤(2);否则,结束仿真,得到不同状态xi,t下的最优的行为策略ai,t。
 
从图C2中可以得知,区域交通网络包括108个节点,170条双向道路,根据该市的规划共配置4个充电站,分别位于为105#-108#节点上,其充电桩数量分别为20、15、20和20。4个充电站分别接入配电网的11#、24#、31#和21#节点。本文的电动汽车为BYD-E6纯电动汽车,其快充额定功率为90 kW,充电功率因素η为0.98。本文假设所有的电动汽车都使用快充模式,并且一旦开始充电直到电池充满电(SOC=1)后才结束充电。
 
该配电网典型日负载率曲线如图C3所示,2台风力发电机的典型出力曲线如图C4所示。其中,风力发电的平均渗透率约为20%。
 
参考文献
[1] 宋晓通,吕倩楠,孙艺,等.基于电价引导的电动汽车与综合能源系统交互策略[J].高电压技术,2021,47(10):3744-3756.
[2] 林才华, 张逸,邵振国,等.基于模糊DEA的长时间尺度电能质量综合评估[J]. 高电压技术,2021,47(5):1751-1761.
[3] 王海鑫,袁佳慧,陈哲,等.智慧城市车-站-网一体化运行关键技术研究综述及展望[J].电工技术学报,2022,37(1):112-132.
[4] 侯慧,王逸凡,吴细秀,等.长时间尺度下计及里程焦虑心理效应的电动汽车充放电调度策略[J/OL].高电压技术: 1-12[2023-01-18].
[5] 陈立兴.电价引导机制下多场景电动汽车有序充电策略研究[D]. 南京:东南大学,2017.
[6] 邵尹池,穆云飞,林佳颖,等.“车-站-网”多元需求下的电动汽车快速充电引导策略[J].电力系统自动化,2019,43(18): 60-66+101.
[7] WEI W, MEI S, WU L, et al. Optimal traffic-power flow in urban electrified transportation networks[J]. IEEE Transactions on Smart Grid, 2016, 8(1): 84-95.
[8] WEI W, WU L, WANG J, et al. Network equilibrium of coupled transportation and power distribution systems[J]. IEEE Transactions on Smart Grid, 2017, 9(6): 6764-6779.
[9] ZHOU Z, ZHANG X, GUO Q, et al. Decomposition approach for the interdependency analysis of integrated power and transportation systems[J]. IET Smart Grid, 2020, 3(6): 825-834.
[10] 吕思,卫志农,马骏超,等.基于多目标优化的电力-交通系统协同运行分析[J].电力系统自动化,2022,46(12):98-106.
[11] SHI X, XU Y, GUO Q, et al. A distributed EV navigation strategy considering the interaction between power system and traffic network[J]. IEEE Transactions on Smart Grid, 2020, 11(4): 3545-3557.
[12] 杨天宇,郭庆来,盛裕杰,等.系统互联视角下的城域电力-交通融合网络协同[J].电力系统自动化,2020,44(11):1-9.
[13] LU Y, LIANG Y, DING Z, et al. Deep reinforcement learning based charging pricing for autonomous mobility-on-demand system[J]. IEEE Transactions on Smart Grid, 2021, 13(2): 1412-1426.
[14] WANG S, BI S, ZHANG Y A. Reinforcement learning for real-time pricing and scheduling control in EV charging stations[J]. IEEE Transactions on Industrial Informatics, 2019, 17(2): 849-859.
[15] QIAN T, SHAO C, WANG X, et al. Deep reinforcement learning for EV charging navigation by coordinating smart grid and intelligent transportation system[J]. IEEE Transactions on Smart Grid, 2019, 11(2): 1714-1723.
[16] 袁红霞, 张俊, 许沛东, 等. 基于图强化学习的电力交通耦合网络快速充电需求引导研究[J]. 电网技术, 2021, 45(03):979-986.
[17] XU P, ZHANG J, GAO T, et al. Real-time fast charging station recommendation for electric vehicles in coupled power-transportation networks: A graph reinforcement learning method[J]. International Journal of Electrical Power &amp; Energy Systems, 2022, 141: 108030.
[18] 王岩庆,王骁,丛若晨,等.考虑配电网运行安全的出行电动汽车充电引导策略[J/OL].高电压技术: 1-16 [2023-01-18].
[19] CASTILLO E, CALVIÑO A, SÁNCHEZ-Cambronero S, et al. A multiclass user equilibrium model considering overtaking across classes[J]. IEEE Transactions on Intelligent Transportation Systems, 2013, 14(2): 928-942.
[20] QIU D, WANG Y, ZHANG T, et al. Hybrid multi-agent reinforcement learning for electric vehicle resilience control towards a low-carbon transition[J]. IEEE Transactions on Industrial Informatics, 2022, 18(11): 8258 - 8269.
[21] ALQAHTANI M, HU M. Dynamic energy scheduling and routing of multiple electric vehicles using deep reinforcement learning[J]. Energy, 2022, 244: 122626.
[22] VELIČKOVIĆ P,CUCURULL G,CASANOVA A, et al. Graph attention networks[EB/OL]. arXiv preprint arXiv: 1710.10903, 2017[2018-02-04]. http://arxiv.org/abs/1710.10903
[23] MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. nature, 2015, 518(7540): 529-533.
[24] 漆星,郑常宝,张倩.基于深度确信策略梯度的电动汽车异步电机参数标定方法[J].电工技术学报,2020,35(20):4266-4277.
[25] 阮贺彬,高红均,刘俊勇,等.考虑DG无功支撑和开关重构的主动配电网分布鲁棒无功优化模型[J].中国电机工程学报,2019,39(3):685-695.
[26] GAN Lingwen, LI Na, TOPCU U, et al. Exact convex relaxation of optimal power flow in radial networks[J]. IEEE Transactions on Automatic Control, 2015, 60(1): 72-87.
[27] LOW S H. Convex relaxation of optimal power flow-part I: formulations and equivalence[J]. IEEE Transactions on Control of Network Systems, 2014, 1(1): 15-27.
[28] LOW S H. Convex relaxation of optimal power flow-part II: exactness[J]. IEEE Transactions on Control of Network Systems, 2014, 1(2): 177-189.
[29] YANG T, GUO Q, XU L, et al. Dynamic pricing for integrated energy-traffic systems from a cyber-physical-human perspective[J]. Renewable and Sustainable Energy Reviews, 2021, 136: 110419.
[30] JIANG C X, JING Z X, CUI X R, et al. Multiple agents and reinforcement learning for modelling charging loads of electric taxis[J]. Applied Energy, 2018, 222: 158-168.
[31] 国家统计局.2021年城镇单位就业人员平均工资数据[EB/OL].[2022-5-20]. http://www.Stats.gov.cn/tjsj/sjjd/202205/ t202205 20_1857626.html.National Bureau of Statistics.Average salary data of employed persons in urban units in 2021[EB/OL]. [2022-5-20] http://www.stats. gov.cn/tjsj/sjjd/202205/t2022050_1857626. html.
(责任编辑:mac)
------分隔线----------------------------

最新论文

随机论文

——本公司实力说明——
本公司实力说明
1. 十一年专业论文服务经验,现有全职员工近百人,并且拥有兼职博士、硕士30多人。我们的实力就是您信心的保证。
2. 十一年成功运作经验,现为中国最好的专业论文服务中心之一。

服务承诺
本论文服务...

Copyright www.lunwenkj.cn 科技论文网 版权所有
科技论文网提供质量好的 科技论文代写、管理论文发表服务,是一个一流的论文代写、论文发表服务平台。
郑重声明:本站部分论文资料源于网上的共享资源及期刊共享,请特别注意勿做其他非法用途!
如有侵犯您论文的版权或其他有损您利益的行为,请联系指出,我们会立即进行改正或删除有关内容!