摘要
对拓扑结构进行优化可提高电力系统运行灵活性,然而线路开断与变电站母线分裂等系统级的离散决策变量维度极高。该拓扑结构优化问题难以由传统混合整数优化方法求解。针对该问题,提出了一种结合异步优势Actor-Critic(A3C)深度强化学习与电力系统领域知识的运行优化方法,将在线优化的计算负担转移至离线智能体训练阶段。该方法通过同时考虑拓扑结构与发电出力调整的动作空间设计系统运行控制智能体,以最小化约束越限为训练奖励,通过强制约束校验缩减搜索空间并提高强化学习效率,从而实现电力系统运行拓扑结构优化的快速计算,提高电力系统运行的安全性。仿真测试验证了所提方法的有效性。
电力系统网络结构一般不随系统运行状态改变而改变,若非检修或故障,线路等主要输电设备将保持闭合运
输电网拓扑结构优化无须加装设备,可通过改变电网拓扑来改善潮流分布,从而解决线路过载与电压越限等问题。近年来,常见的输电网结构优化主要包括输电线路最优开
为实现系统级拓扑结构优化问题的求解并降低深度强化学习负担,本文提出了一种结合异步优势Actor-Critic(A3C)深度强化学习与领域知识的电力系统拓扑结构优化方法。以提升系统在各种随机场景下的N-1安全性为核心,本文采用最小化约束越限为奖励训练智能体,将在线运行的优化计算负担转移至离线训练过程,同时通过动作空间筛选降低训练负担,实现了良好的学习效果。
对于实际电网,每个变电站均有多条母线。每一个负荷、每一台发电机或每一条传输线均可连接在其中一条母线或另一条母线上。通过变电站节点分裂或重连、设备与线路所连母线的变化、线路开断,都可以改变电力系统的拓扑结构,从而改变潮流分布,实现系统的经济与安全运行。
在考虑拓扑的电力系统运行优化问题中,要求控制中心尽可能让系统在负荷波动、线路故障等随机因素影响下安全运行更长的时间,并降低运行成本。过载与线路故障可能造成连锁故障并使潮流发散,因此系统拓扑结构优化的问题本质是考虑N-1安全性的最优潮流问题。
计及传输线网损和发电出力调整经济补偿,并尽可能避免停电,系统运行的总成本可表述为:
(1) |
(2) |
(3) |
(4) |
式中:C为单个场景的总运行成本;为时刻t传输线网损成本;为时刻t电价;rl为传输线l的电阻;为传输线l在时刻t的电流;为时刻t发电机出力调整的成本;为时刻t停电成本;为补偿系数,因增发或少发电的发电厂都有偏离计划的出力调整,因此电网运营商需按补偿协议弥补双方的损失;为发电出力调整量;为时刻t总负荷;为停电成本系数,;为系统正常运行总时长;为系统停电总时长;为传输线总数。
为实现总成本最小化,系统须满足潮流方程等式约束(5)和(6),以及发电机有功出力约束(7)、机组爬坡速率约束(8)、线路潮流约束(9)、线路热稳定极限约束(10)等不等式约束。
(5) |
(6) |
(7) |
(8) |
(9) |
(10) |
式中:、、、分别为节点i的有功负荷、无功负荷、有功出力、无功出力;和分别为节点i和j的电压幅值;为母线i与母线j之间的相角差;为节点导纳矩阵第i行j列元素,和分别为相应元素的电导和电纳;为时刻t发电机i的有功出力;和分别为机组向下和向上爬坡率;Sij为输电线路(i,j)的传输功率;为输电线路(i,j)的最大额定值功率;为输电线路(i,j)热稳定极限允许的最大功率;n为系统总节点数。
在系统运行时,由于受运行约束与热稳定极限约束,当线路过载超过一定时间后就会断开,而当线路潮流超过热稳定极限约束时就会立即断开。在智能体动作后,通过求解潮流方程判断潮流方程是否发散,若发散则判断为开始停电,从而可统计总运行成本。
拓扑结构的决策是一个含离散变量的高维优化问题,而每种不同的拓扑决策不仅影响当前状态下的潮流分布,还会影响若干时间后系统在其他状况下的潮流分布。因此,传统优化问题难以在考虑未来系统状态的情况下及时求解最优决策问题。为此,可将考虑拓扑变量的电力系统运行优化问题建模成马尔可夫决策过程,并通过深度强化学习来离线训练智能体,在线应用时能及时求解系统最优运行状态。
目前,主流的深度强化学习方法包括基于价值(value-based)和基于策略(policy-based)的深度强化学习方法,前者会评价不同动作的预期收益并选择最优收益所对应的动作,而后者直接求得使目标最优的动作概率(或值)。两种深度强化学习均通过与环境迭代互动来优化智能体。基于深度强化学习优化系统运行的过程可以用

图1 用于电力系统拓扑优化的深度强化学习过程
Fig.1 Deep reinforcement learning process for power system topology optimization
由于电力系统拓扑决策的动作空间巨大,单线程的强化学习策略难以有效遍历可行决策。为了增加样本多样性,可设置多个线程,令智能体分别在学习过程中与不同的环境交互,从而克服难以收敛的问题。为此,本文基于A3C算法设计电力系统运行控制智能体,通过并行创建多个不同的环境,让多个不同的智能体同时在各个环境中更新全局网络的参数,从而增加样本的多样性并改善强化学习的收敛性。训练过程框架如

图2 用于电力系统运行优化的A3C强化学习智能体训练框架
Fig.2 Training framework of A3C reinforcement learning agent for power system operation optimization
在以上异步框架的基础上,A3C通过优势项,即智能体的实际奖励与Critic输出预期状态价值之间的差异来加快与稳定训练过程。其训练过程主要由
(11) |
(12) |
式中:为智能体i的控制动作(即拓扑决策与发电出力调整);为智能体i的状态(即电力系统当前拓扑结构与潮流分布);为预期状态价值,即Critic神经网络预测的状态价值;为奖励函数;为Actor神经网络参数,由多个运行过程下的优势项对Actor参数梯度的累计求和更新;为Critic神经网络参数,由状态价值预测误差对Critic参数梯度的累计求和更新;为智能体动作策略(policy);和分别为目标Actor和Critic神经网络参数。
经过离线的深度强化学习,智能体参数可以得到充分更新,并最大化运行过程中的预期奖励。在此基础上,以电力系统运行状态为输入、拓扑决策或发电出力调整的动作概率为输出,所得的A3C深度强化学习智能体可用于在线的电力系统运行优化。在训练完成后,智能体可实时根据电力系统状态计算得到当前时刻各动作的概率,概率最高的动作将会作为智能体的决策。在智能体选择动作后,本文由潮流计算进一步检验动作的可行性。若当前动作无法满足所有约束条件,则继续检验概率次高的拓扑改变或发电出力调整动作,直至动作满足约束条件为止。
在将电力系统运行优化问题建模为深度强化学习问题的过程中,特征(智能体的输入)与动作(智能体的可选输出)的选择直接决定了性能的好坏。
本文在智能体建模过程中使用的特征包括数值特征与拓扑结构特征。数值特征包括负荷有功功率和无功功率、发电有功功率和无功功率、预测负荷、线路维修计划(距下次维修所剩小时数)、线路功率与功率约束。拓扑结构特征基于节点临界矩阵,在生成无向图的基础上,由NetworkX包计算得到,包括图的节点重要性(PageRank)、介数中心性(betweenness centrality)、节点度数(degree centrality)。线路开断状态直接作为额外的向量并入拓扑特征中。需要指出的是,图神经网
原问题可控参数包括系统拓扑结构与发电机再调度功率,动作空间维度过于巨大,难以直接训练强化学习智能体。受限于机组爬坡速率约束,本文将所有的机组再调度问题都建模为离散决策问题。设机组再调度增发或减发功率为机组爬坡率所限制功率,发电再调度模型可建模为从ng台可调整发电机中选择k台发电机进行增发或减发功率(共种不同决策),可将此离散决策动作采用不放回采样的排列组合问题求解得到。通过排列组合工具箱Itertools可直接枚举所有包含发电机的决策组合,并在此基础上通过动作筛选缩减动作空间。
在枚举所有可行拓扑决策与再调度决策的基础上,本文使用了滚动式动作筛选。设置一个基于穷举法的智能体在环境中不断运行,仅当系统发生潮流越限时开始筛选可行动作,并不断仿真直到迭代结束。在动作筛选过程中,能让系统从潮流越限状态恢复至安全运行状态的拓扑动作与发电出力调整动作合并至智能体训练所用的动作空间:
(13) |
(14) |
(15) |
式中:和分别为第h步和h+1步仿真时的可行动作集合;为第h步仿真时能够满足所有约束条件且当前奖励优于不执行动作的动作集合;为第h步仿真时所有可行的拓扑动作集合;为第h步仿真时所有可行的发电出力调整动作集合;为发电出力调整动作集合;和分别为第h步仿真时的惩罚函数及惩罚函数的最大值。
在本文中,由于计算资源有限,所构建深度神经网络规模较小,因此无法保证在所有场景与数据集上都能收敛。为此,本文随机划分了数据集,并由A3C模型构建了2个不同的智能体,依据所划分的数据集分别对这2个模型进行训练。在此基础上,令2个智能体在在线应用阶段互为后备,当其中之一失效时由后备智能体求得拓扑或发电出力调整动作(若其中一个模型无法满足约束时,则另一个后备模型仍然有机会使系统恢复安全)。此外,本文使用2种不同的奖励函数训练2个智能体,从系统安全性、运行成本2个不同的角度优化拓扑控制决策。
在深度强化学习过程中,奖励函数用于评价智能体动作的效果,并引导智能体调节其参数使预期奖励最大化。本文采用2个智能体互为后备,其奖励函数分别从改善潮流分布均匀程度、降低系统运行成本2个角度进行设计。
首先,提高系统潮流分布的均匀程度有助于提高系统运行的安全
(16) |
式中:为输电线路l的当前传输功率;为输电线路l的传输功率额定最大值。
其次,后备模型以电网运行总成本最小为目标,奖励函数为正常数减去运行成本或停电损失。
(17) |
式中:Rb为正常数,作用为鼓励智能体尽可能运行更长时间,避免智能体因惩罚积累过多而使系统提前停止运行。
在基础奖励函数R0和的基础上,若发生潮流越限,则在奖励函数上附加一个较大“惩罚”;若系统潮流发散,则给以智能体一个高额“惩罚”。此外,若惩罚项持续过高,预期累积奖励为负,则智能体可能会尝试直接使潮流发散以提前终止系统运行。为此,本文对系统运行时奖励最小值进行了约束。所使用的最终奖励函数R为:
(18) |
式中:为系统运行时奖励最小值;为潮流发散时给予智能体的惩罚项;为输电线路l潮流越限的惩罚系数。
若在训练过程中仅使用随机搜索,则因动作空间过大,难以在有限时间内获得足够高质量样本。为了提升样本质量,使强化学习智能体更快获得理想效果,本文在离线强化学习过程中强制进行潮流约束检验,其流程如

图3 结合强制约束校验的训练搜索流程
Fig.3 Training searching process combining forced constraint verification
由于动作空间过于巨大,传统的深度强化学习难以有效探索遍历可能的动作,因此局部最优难以避免,且训练时间过于漫长。通过上述强制约束校验过程,可以显著降低搜索阶段的计算量,加快深度强化学习的训练速度。
本文仿真验证在CPU内存为16 GB、GPU为GTX1070的计算机上进行。所用于仿真的Python模块主要包括Grid2op、Tensorflow、Keras、Pypownet、Networkx。本文模型与测试代码均已开
本文仿真所用系统的详细信息及数据集场景来源详见附录A。该系统有35个变电站、22台发电机、59条输电线路。考虑不同的变电站母线连接方式,该系统共有177个节点,每步优化时有65 536种不同的拓扑结构决策。当线路潮流超越热稳定极限时,线路将直接断开。当线路潮流持续超过安全约束时,线路也将断开。该系统的拓扑结构如附录A图A1所示。
为了验证本文方法的有效性以及计算效率,采用无控制的参考方法以及基于穷举拓扑决策的混合整数优化(仅在约束越限时进行计算,搜索使系统恢复安全的拓扑结构,若发现系统能满足约束条件则应用该拓扑结构并停止搜索)方法进行对比研究。需指出的是,65 536种不同拓扑结构决策并不能简单视为某连续决策变量的离散化,原问题极度非凸且复杂度高,无法使用主流求解器(如Cplex等)进行有效求解。文献中现有混合整数优化仅能考虑少量不同的拓扑决
本文仿真通过降低学习率并使智能体在更大的数据集上进行训练,同时在本地测试数据集上实现所有场景下的安全运行,如

图4 采用深度强化学习智能体的仿真结果
Fig.4 Simulation results with adoption of deep reinforcement learning agent

图5 采用穷举方法的仿真结果
Fig.5 Simulation results with adoption of exhaustive method
为了验证本文方法的经济性,
常规穷举方法在约束越限时须对不同的拓扑结构组合进行多次潮流计算,过程极其耗时,而本文方法可通过训练强化学习智能体,将大规模仿真的计算耗时转移至离线神经网络训练过程,使在线决策阶段快速求得满足系统安全的拓扑结构最优解。
为了验证智能体对于系统拓扑结构优化的实际效果,本文也在潮流发散前对系统在有无控制情况下的线路潮流分布进行了对比,详见

图6 系统潮流分布
Fig.6 Power flow distribution of power system
本文提供了一种结合A3C深度强化学习与电力系统领域知识的系统拓扑与发电调整控制方法,以解决电力系统在线运行中决策变量计算量大与前瞻性不足的问题。为了在巨大的动作空间下高效地探索可行拓扑决策,本文引入A3C强化学习框架,使各个智能体分别与不同的环境相交互,增加了样本的多样性,克服了训练难以收敛的问题。同时,为了使智能体能有效地对电力系统状态进行建模,本文所设计智能体考虑了拓扑结构特征与数值特征,并以若干先验可行的动作作为动作空间。由于搜索量巨大,本文为了加快算法收敛并提高智能体性能,结合了电力系统领域知识设计奖励函数与强制约束校验。在一定条件下,智能体将强制寻找可以满足约束条件的动作,以避免过多无效的随机搜索。最后,通过随机训练数据集的划分,由不同数据训练的2个神经网络互为后备,提高了电力系统运行控制的安全性能。
本文训练主要基于处理后的系统数值特征,并不一定能充分反映各种情况下的网络拓扑特征与潮流的空间分布,后续研究可尝试由图神经网络建立智能体以提取潮流空间分布特征。此外,因该问题决策变量维数过高,搜索空间仍然巨大,后续研究可考虑以系统的图论目标状态为输出来改进动作集的建立过程。
附录
测试系统信息:本文测试数据集包含10种场景,每种场景有不同的负荷曲线与设备/线路故障。在训练阶段,训练数据集包括2881个不同场景,每种场景有8064步运行状态,每步间隔为5min,训练数据集大小为4.55G,可见[18]。数据来源为IEEE全球计算智能大会(WCCI)所启动的电力系统人工智能竞赛Learning to Run a Power Netowork(L2RPN)。L2RPN由国家电网江苏省电力有限公司、全球能源互联网美国研究院、法国RTE电力公司等联合举办。

图A1 测试系统的拓扑结构
Fig.A1 Structure of testing system

图A2 仿真环境中的系统运行成本对比
Fig.A2 Comparison of power systems operation cost in simulation environment

(a) 2012-02-23T18:45:00场景下无拓扑结构优化时的线路潮流分布

(b) 2012-02-23T18:45:00场景下由本文所提出智能体优化的线路潮流分布
图A3 有无拓扑结构优化的电力系统线路潮流分布(其他场景)
Fig.A3 Power system flows distribution without and with the optimization of topological variables (other scenario)
参 考 文 献
杨知方,钟海旺,夏清,等.输电网结构优化问题研究综述和展望[J].中国电机工程学报,2016,36(2):426-434. [百度学术]
YANG Zhifang, ZHONG Haiwang, XIA Qing, et al. Review and prospect of transmission topology optimization[J]. Proceedings of the CSEE, 2016, 36(2): 426-434. [百度学术]
HAN J, PAPAVASILIOU A. The impacts of transmission topology control on the European electricity network[J]. IEEE Transactions on Power Systems, 2016, 31(1): 496-507. [百度学术]
赵博石,胡泽春,宋永华.考虑N-1安全约束的含可再生能源输电网结构鲁棒优化[J].电力系统自动化,2019,43(4):16-24. [百度学术]
ZHAO Boshi, HU Zechun, SONG Yonghua. Robust optimization of transmission topology with renewable energy sources considering N-1 security constraint[J]. Automation of Electric Power Systems, 2019, 43(4): 16-24. [百度学术]
蒋航,方颖颖,周建英,等.基于网络拓扑结构优化的电力系统网损在线综合优化方法[J].自动化与仪器仪表,2020(11):210-215. [百度学术]
JIANG Hang, FANG Yingying, ZHOU Jianying, et al. Online comprehensive optimization method for network loss of power system based on network topology adjustment[J]. Automation & Instrumentation, 2020(11): 210-215. [百度学术]
李少岩,任乙沛,顾雪平,等.基于短路电流约束显式线性建模的输电网结构优化[J].电工技术学报,2020,35(15):3292-3302. [百度学术]
LI Shaoyan, REN Yipei, GU Xueping, et al. Optimization of transmission network structure based on explicit linear modeling of short circuit current constraints[J]. Transactions of China Electrotechnical Society, 2020, 35(15): 3292-3302. [百度学术]
LAN T, WANG W Z, HUANG G M. Transmission grid topology control using critical switching flow based preventive stabilizing redispatch[J]. IEEE Transactions on Power Systems, 2018, 33(3): 2572-2582. [百度学术]
YANG Z F, ZHONG H W, XIA Q, et al. Optimal transmission switching with short-circuit current limitation constraints[J]. IEEE Transactions on Power Systems, 2016, 31(2): 1278-1288. [百度学术]
FISHER E B, O’NEILL R P, FERRIS M C. Optimal transmission switching[J]. IEEE Transactions on Power Systems, 2008, 23(3): 1346-1355. [百度学术]
FULLER J D, RAMASRA R, CHA A. Fast heuristics for transmission-line switching[J]. IEEE Transactions on Power Systems, 2012, 27(3): 1377-1386. [百度学术]
SOROUSH M, FULLER J D. Accuracies of optimal transmission switching heuristics based on DCOPF and ACOPF[J]. IEEE Transactions on Power Systems, 2014, 29(2): 924-932. [百度学术]
KHANABADI M, GHASEMI H, DOOSTIZADEH M. Optimal transmission switching considering voltage security and N-1 contingency analysis[J]. IEEE Transactions on Power Systems, 2013, 28(1): 542-550. [百度学术]
WU J, CHEUNG K W. Incorporating optimal transmission switching in day-ahead unit commitment and scheduling[C]// 2015 IEEE Power & Energy Society General Meeting, July 26-30, 2015, Denver, USA: 1-5. [百度学术]
GOLDIS E A, RUIZ P A, CARAMANIS M C, et al. Shift factor-based SCOPF topology control MIP formulations with substation configurations[J]. IEEE Transactions on Power Systems, 2017, 32(2): 1179-1190. [百度学术]
HEIDARIFAR M, GHASEMI H. A network topology optimization model based on substation and node-breaker modeling[J]. IEEE Transactions on Power Systems, 2016, 31(1): 247-255. [百度学术]
GOLDIS E A, RUIZ P A, CARAMANIS M C, et al. Shift factor-based SCOPF topology control MIP formulations with substation configurations[J]. IEEE Transactions on Power Systems, 2017, 32(2): 1179-1190. [百度学术]
张尚,王涛,顾雪平,等.基于输电网结构优化的电网安全均匀调度[J].电网技术,2017,41(9):2957-2963. [百度学术]
ZHANG Shang, WANG Tao, GU Xueping, et al. Power grid homogeneous dispatch based on transmission topology optimization[J]. Power System Technology, 2017, 41(9): 2957-2963. [百度学术]
XIAO R S, XIANG Y M, WANG L F, et al. Power system reliability evaluation incorporating dynamic thermal rating and network topology optimization[J]. IEEE Transactions on Power Systems, 2018, 33(6): 6000-6012. [百度学术]
ZHANG Z D, ZHANG D X, QIU R C. Deep reinforcement learning for power system applications: an overview[J]. CSEE Journal of Power and Energy Systems, 2019, 6(1): 213-225. [百度学术]
ZHAO T Q, WANG J H. Learning sequential distribution system restoration via graph-reinforcement learning[J/OL]. IEEE Transactions on Power Systems[2021-03-04]. https://ieeexplore.ieee.org/document/9508140. [百度学术]
YOON D, HONG S, LEE B J, et al. Winning the L2RPN challenge: power grid management via semi-Markov after state actor-critic[C]// International Conference on Learning Representations, May 4-7, 2021, Vienna, Austria: 1-6. [百度学术]
HOSSAIN R R, HUANG Q H, HUANG R K. Graph convolutional network-based topology embedded deep reinforcement learning for voltage stability control[J]. IEEE Transactions on Power Systems, 2021, 36(5): 4848-4851. [百度学术]
孙伟卿,王承民,张焰,等.电力系统运行均匀性分析与评估[J].电工技术学报,2014,29(4):173-180. [百度学术]
SUN Weiqing, WANG Chengmin, ZHANG Yan, et al. Analysis and evaluation on power system operation homogeneity[J]. Transactions of China Electrotechnical Society, 2014, 29(4): 173-180. [百度学术]
A solution for learning to run the power network challenge[R/OL]. [2020-10-20]. https://github.com/ZM-Learn/L2RPN_ WCCI_a_Solution. [百度学术]