油气勘探

基于深度强化学习的测井曲线自动深度校正方法

  • 熊文君 , 1 ,
  • 肖立志 , 1 ,
  • 袁江如 2 ,
  • 岳文正 1
展开
  • 1 中国石油大学(北京),北京 102249
  • 2 中国石油勘探开发研究院,北京 100083
肖立志(1962-),男,湖南新邵人,中国石油大学(北京)教授,主要从事岩石物理、地球物理测井、核磁共振理论与应用以及油气人工智能的研究和教学工作。地址:北京市昌平区府学路18号,中国石油大学(北京),邮政编码:102249。E-mail:

熊文君(1990-),男,湖北鄂州人,中国石油大学(北京)在读博士生研究生,主要从事油气勘探领域人工智能技术的研究。地址:北京市昌平区府学路18号,中国石油大学(北京),邮政编码:102249。E-mail:

Copy editor: 黄昌武

收稿日期: 2023-08-22

  修回日期: 2024-03-21

  网络出版日期: 2024-05-24

基金资助

中国石油天然气集团有限公司-中国石油大学(北京)战略合作科技专项(ZLZX2020-03)

Automatic depth matching method of well log based on deep reinforcement learning

  • XIONG Wenjun , 1 ,
  • XIAO Lizhi , 1 ,
  • YUAN Jiangru 2 ,
  • YUE Wenzheng 1
Expand
  • 1 China University of Petroleum, Beijing 102249, China
  • 2 Research Institute of Petroleum Exploration & Development, PetroChina, Beijing 100083, China

Received date: 2023-08-22

  Revised date: 2024-03-21

  Online published: 2024-05-24

摘要

针对传统测井曲线深度校正需要手动调整曲线,而对于多口井的深度校正工作量巨大,需要大量人工参与,且工作效率较低的问题,提出一种多智能体深度强化学习方法(MARL)来实现多条测井曲线自动深度匹配。该方法基于卷积神经网络(CNN)定义多个自上而下的双滑动窗口捕捉测井曲线上相似的特征序列,并设计一个智能体与环境的互动机制来控制深度匹配过程。通过双深度Q学习网络(DDQN)选取一个动作来平移或缩放测井特征序列,并利用反馈的奖励信号来评估每个动作的好坏,以学习到最优的控制策略达到提升深度校正精度的目的。研究表明,MARL方法可以自动完成多口井、不同测井曲线的深度校正任务,减少人工干预。在油田实例应用中,对比分析了动态时间规整(DTW)、深度Q学习网络(DQN)和DDQN等方法的测试结果,DDQN算法采用双网络评估机制有效改进了算法的性能,能够识别和对齐测井曲线特征序列上更多的细节,具有较高的深度匹配精度。

本文引用格式

熊文君 , 肖立志 , 袁江如 , 岳文正 . 基于深度强化学习的测井曲线自动深度校正方法[J]. 石油勘探与开发, 2024 , 51(3) : 553 -564 . DOI: 10.11698/PED.20230460

Abstract

In the traditional well log depth matching tasks, manual adjustments are required, which means significantly labor-intensive for multiple wells, leading to low work efficiency. This paper introduces a multi-agent deep reinforcement learning (MARL) method to automate the depth matching of multi-well logs. This method defines multiple top-down dual sliding windows based on the convolutional neural network (CNN) to extract and capture similar feature sequences on well logs, and it establishes an interaction mechanism between agents and the environment to control the depth matching process. Specifically, the agent selects an action to translate or scale the feature sequence based on the double deep Q-network (DDQN). Through the feedback of the reward signal, it evaluates the effectiveness of each action, aiming to obtain the optimal strategy and improve the accuracy of the matching task. Our experiments show that MARL can automatically perform depth matches for well-logs in multiple wells, and reduce manual intervention. In the application to the oil field, a comparative analysis of dynamic time warping (DTW), deep Q-learning network (DQN), and DDQN methods revealed that the DDQN algorithm, with its dual-network evaluation mechanism, significantly improves performance by identifying and aligning more details in the well log feature sequences, thus achieving higher depth matching accuracy.

0 引言

测井曲线深度校正是一项非常重要的数据处理工作,不仅为获取准确的地层解释参数、分析和评价地层提供了基础,而且对确保后续地质建模的准确性至关重要[1]。然而,在整个测井工作中,会有很多因素影响到测井曲线之间采样点深度对齐,例如:弹性电缆产生拉伸或收缩使得测量与实际深度的误差可能较大[2];不同测井通道的参考深度经常不同步[3-5];测井曲线受到系统噪声和井下环境的影响导致深度不匹配等[6]。几乎所有测井数据都应该先进行深度校正后才能进行井下储层岩性和流体性质分析,否则必然会导致后续的测井解释结果失真。
为了解决这些问题,20世纪80年代,研究学者们相继提出了多种方法,归纳起来主要包括两大类别:基于统计学方法的深度匹配[7]和基于参考曲线的特征点对齐方法[8]。这些传统方法主要是以自然伽马曲线作为参照,通过识别不同测井曲线之间具有相同地质构造特征序列来完成深度对齐任务。20世纪90年代,各种商业软件相继被开发与应用,主要是通过两个信号序列之间的相关性来完成相似匹配[9-10]。然而,这些传统方法大多是通过人为主观经验在测井曲线之间拾取相似的信号序列手动完成[11]。21世纪初,Aach等[12]、Petitjean等[13]和Mei等[14]在传统方法基础上提出了一种动态时间规整方法(DTW)来度量不同信号序列之间的相似性。然而,DTW是一种基于时间序列的局部比较方法,容易受到数据噪声影响且计算量大[15-16]
近年来,随着测井技术的发展,薄层解释、射孔技术和随钻测井等都对深度匹配的处理效率和精度提出了更高的要求。很多学者试图采用机器学习来研究相关问题[17-20],例如全连接神经网络(FCNN)[1]、卷积神经网络(CNN)[11,21]和长短期记忆网络(LSTM)[22]等方法先后被提出并应用于自然伽马测井的深度校正。目前,该方法主要适用于自然伽马曲线(GR)之间的深度匹配,且模型的运行效率受到牵制。随后Torres等[6]提出利用一维CNN来捕捉不同测井曲线之间的相似特征,既能避免人工提取测井曲线特征的繁琐工作,也能较好地完成不同类型测井数据的匹配工作。但是,深度学习需要大量数据来训练模型,否则容易出现过拟合[23],而手动打标签是一个繁琐的过程,于是强化学习被引入到深度匹配任务中[24]。DQN算法不需要手动制作标签,而是通过智能体与环境的交互反馈1个奖励信号,用于指导智能体逐步学习到最优的深度校正策略[8],但该单智能体强化学习方法仅局限于同1口井GR曲线之间进行深度校正。本文基于深度强化学习进一步开发了一种新的测井曲线深度匹配方法来模仿人类执行多口井、不同测井通道的测井曲线之间深度匹配,以提高测井数据预处理效率。该方法在单智能体强化学习上进一步改进,在高维动作空间中增加了测井特征序列缩放机制,并将多条测井曲线的深度匹配问题看作是一个马尔可夫决策过程,从而建立了一个多智能体强化学习预测系统,实例应用表明在常规测井数据集上能显著提高深度匹配的效率和精度,达到多井自动深度校正的目的。

1 测井曲线深度校正内容

考虑到放射源和安全防护措施,矿场测井作业通常分为2~3趟进行。如图1所示,第1趟测试自然伽马(GR1)、自然电位(SP)、声波时差(Δt)、浅侧向电阻率(RLLS)、深侧向电阻率(RLLD)等无放射性源的测井曲线;第2趟测试往往自带一条GR2曲线,测试补偿中子孔隙度(ϕCNL)、密度(ρ)等带有放射性线源的测井曲线[20]。由于测量方法和环境的复杂性,往往使得各测井曲线与实际深度之间存在一定差异,根据这一差异,深度校正可分为以下2方面内容。
图1 测井曲线深度校正示例

1.1 GR曲线之间的深度校正

同一口井、不同趟次测井作业过程中,由于测速、井架滑轮位置移动、仪器重量、电缆及仪器的组合工具与井壁的接触情况、泥浆黏附比重等影响,使得不同趟次测量时电缆所受的张力不同,从而导致不同测井曲线之间产生深度误差。无论是直接还是间接因素,这些深度误差将无法避免。因此,国内外测井公司一般先将第2趟测量的测井曲线(ϕCNLρGR2)采样点的深度延迟量和预置量保持一致[25]。利用第1趟测量的GR1作为深度参考曲线,再将GR2GR1深度对齐以完成不同趟测井曲线的初步校正(见图1)。

1.2 不同曲线之间的深度校正

同一趟测井作业中,当上提测井仪器过程中遇卡或跳动时,使得相应的测井曲线被拉伸或压缩,导致各测井曲线之间产生深度误差。另外,组合测井仪器悬挂的各测量工具记录点的深度延迟计算、井壁对各个悬挂测试仪的摩擦与黏附作用等,都将会造成测井曲线之间的深度误差。虽然同一趟测量的测井曲线之间的深度误差往往比不同趟测井曲线之间的误差要小,但是当井下环境较差时其深度误差将不能忽略。如图1所示,同一趟测井曲线中ΔtSPGR1等的深度,以及不同趟测井中ϕCNLρ等与GR1的深度均需要校正。

2 测井曲线深度校正方法原理

2.1 多测井曲线深度校正的马尔可夫决策过程

强化学习(RL)是机器学习的一个重要领域,通常将RL要解决的问题抽象化为智能体(Agent)和环境(Environment)之间的交互作用。本文将学习和实现测井曲线进行深度校正的决策主体称为智能体,任何与智能体相互作用的外部事物都被称为环境,环境包括输入的测井曲线和历史校正记录等。智能体在环境中观察到当前测井曲线的匹配现状称为状态,智能体采取的一组动作(平移、缩放或停止)作用于环境去改变测井曲线匹配状态称为行为。RL试图解决的是一个基于智能体与环境互动的马尔可夫决策优化问题[26]。对于单智能体系统进行深度校正时,其可以接收输入2条测井曲线(一般是GR1GR2,见图2a)。为了实现井中不同的目标测井曲线(GR2ϕCNLρ、Δt等)与参考测井曲线(GR1)之间同时自动深度匹配,本文将每一对测井曲线进行深度匹配的执行主体定义为一个智能体,这样就将单智能体强化学习扩展为一个多智能体强化学习系统(MARL,见图2b)。
图2 强化学习智能体与环境之间的交互过程示意图
与单智能体强化学习类似,多智能体系统的多测井曲线深度匹配过程也是一个马尔可夫决策过程(见图2b),不同的是,多个智能体与同一个环境进行交互,既是相互协作观测同一个环境来更新状态和获得最大累计奖励的过程,又是相互独立完成相应目标曲线与参考曲线之间的校正过程,智能体之间的交互过程如图2b所示。第i个智能体在t时刻观察到当前环境状态${{s}_{t,i}}$,并在一定策略 π t , i的影响下选择一个动作 a t , i作用于环境。那么,所有智能体都会根据一个联合策略 P t = π t , 1 , π t , 2 , , π t , N执行一个联合动作 A t = a t , 1 , a t , 2 , . . . , a t , N[27]。环境对该动作做出响应,产生一个新的状态 s t + 1,同时每个智能体获得一个奖励 r t + 1 , i。这一过程将在下一个时间步t+1再次重复,最后会产生一系列奖励信号 R t + 1 = r t + 1 , 1 , r t + 1 , 2 , , r t + 1 , N和新的状态 S t = s t , 1 , s t , 2 , . . . , s t , N。如此不断地循环更新,产生一个马尔可夫决策序列 S 0 , A 0 , R 1 , S 1 , A 1 , . . . , S t , A t , R t + 1 , S t + 1。基于这个序列,智能体可以学习到一个最优策略去执行一个动作和获得最大的奖励,最终实现多条测井曲线自动深度校正的目的。

2.2 多测井曲线深度校正的DDQN算法设计

2001年,Aach等[12]提出一种动态时间规整方法(DTW),用于生物基因表达的不同时间序列之间进行对齐以观察分析基因活动随时间的变化。随后,Wang等[11]将该方法用于GR1测井曲线序列(X={x1, x2,…, xn})与GR2测井曲线序列(Y={y1, y2,…, yn})之间的自动深度匹配。通过将测井曲线上对应点之间的欧氏距离构建为一个成本矩阵 C m × n = ( C i , j ),当两个序列之间对应点的累积距离最小时,测井曲线序列之间的相似度最大且匹配效果最好,如(1)式所示。然而,在处理具有大规模采样点的测井曲线时,DTW会增加计算复杂度且匹配结果不稳定[1]。针对上述问题,Bittar等[24]引入一个深度Q网络方法(DQN)[26]用于GR测井曲线之间的自动深度匹配,该方法能够快速并且持续自我学习以不断改进测井曲线匹配过程中的控制优化问题。然而,DQN有一个显著的问题亟待解决:在估算当前状态 s t , i下智能体采取动作 a t , i获得预期的回报值(即Q值函数,如(2)式所示)时,值函数更新操作使得估计的Q值函数比实际值要大,这将导致训练过程不稳定且最终产生次优化策略问题[28]。为此,本文基于双深度Q学习网络算法(DDQN)提出了一种多智能体强化学习模型来研究对多条测井曲线进行深度校正,通过引入一种双网络(估值网络和目标网络)评估机制可以有效减轻过估计问题。多测井曲线深度校正的DDQN算法框架如图3所示,主要包括双滑动窗口输入、双网络评估机制以及经验回放池。
C i , j = D i , j + min C i 1 , j , C i , j 1 , C i 1 , j 1
Q ( s , a ; θ ) = E r 0 + γ r 1 + + γ t r t
深度校正的任务是通过多个双通道的一维CNN(双滑动窗口)对多条测井曲线进行卷积并输入到DDQN网络中,一个智能体可以通过一个双滑动窗口接收输入2条测井曲线的特征序列。其中,第1个滑动窗口(Win1)是在参考测井曲线(GR1)上自上而下滑动;第2个滑动窗口(Win2)是以滑动窗口Win1内的信号序列为基准,在目标曲线(GR2ρϕCNL等)上下滑动以提取与参考曲线具有相似特征的目标序列。图3所示的DDQN算法架构中,滑动窗口的中心点位置表示该滑动窗口在测井曲线上的当前深度位置,双滑动窗口中第1个滑动通道的尺寸是包含参考测井曲线上一段长度为l的特征序列,滑动窗口大小包含128个采样点,采样点间隔为0.125 m;另一个通道是在目标测井曲线上默认包含相同长度的序列。考虑到固定大小的滑动窗口可能因为尺寸不变而不容易捕捉较小或较大范围的特征序列段,本文提出了一个可变滑动窗口。一个随机的尺寸可以被智能体通过试错法选择,以找到合适的捕捉特征窗口,如(3)式和(4)式。为了更加直观地表示滑动窗口通道,文中从测井曲线中切出一段(见图4中红框),第1个滑动窗口的尺寸如(3)式中定义的Win1。第2个滑动窗口中心点的初始位置与Win1相同,窗口边界尺寸为智能体随机生成。在窗口自上而下滑动匹配过程中,(4)式中定义的窗口Win2可以在目标测井曲线上找到最佳匹配特征。
W i n 1 = x i n 1 d , x i + n 1 d
W i n 2 = x j n 2 d , x j + n 2 d
图4 多条测井曲线深度校正的DDQN网络结构
随后,多智能体系统按照顺序决策的过程模仿人类执行多条测井曲线深度校正。该过程是将每一个时间步t分为2步进行。第1个步骤主要是完成每一口井中不同趟次测量的GR曲线之间的匹配任务。即先将同一口井中第2趟测试的测井曲线(GR2ρϕCNL等)上采样点的深度延迟量和预置量保持一致,那么第2趟的测井曲线深度是一致的[25]。此时,将GR2与参考曲线GR1进行深度校正的同时,也完成了测井曲线ϕCNLρGR1之间的初步校正。第2个步骤主要是针对同一口井中不同类型测井曲线之间的深度误差不能忽略时,进行目标测井曲线与GR1的深度微调校正。
这样多智能体进行深度校正任务时,t时刻每个智能体通过观察当前双滑动窗口输入的测井曲线特征序列获得一个深度匹配状态。第1类智能体(负责GR曲线之间的深度校正)按照预设顺序先做出决策,即根据ε-greedy策略[26]选择一个动作 a t , i作用于环境。随后第2类智能体(负责ϕCNLρ、Δt等与GR1之间的深度校正)基于第1种智能体的决策结果选择一个动作 a t , i作用于被校正的测井曲线。t时刻,每一个智能体与环境交互后可以更新到下一时间步状态 s '和获得一个反馈奖励 r。然后经验回放池 D t收集并存储智能体在每一个时间t的经验样本 ( s , a , r , s ' )。如图3所示,在模型训练过程中,DDQN随机从经验池Dt中选取一小批样本数据,通过估值网络计算当前状态下选择动作 aQQ(s,a;θ),并利用目标网络估计下一状态下选择动作 a '的价值 Q ( s ' , a ' ; θ )。这种双网络结构具有相同的架构,都包含有3层卷积神经网络(见图4),每个卷积层之后使用一个非线性激活函数ReLU和一个最大池化层,并通过全连接层来整合特征输出动作Q值。然后,通过损失函数((5)式)计算当前策略下估值网络Q值与目标网络Q值之间的差异。通过最小化损失函数,用于指导神经网络的优化,从而学习到更优的匹配策略。最后,通过随机梯度下降法((6)式)将当前估值网络参数 θ更新到 θ '以进行下一轮训练学习。重复上述过程,最终每个智能体能学习到如何采取最优的动作完成多条测井曲线深度匹配。
L o s s θ = E r t + γ Q s , m a x a Q ; θ Q s , a ; θ 2
θ = θ + r t + γ Q s , max a Q ; θ Q Q s , a ; θ

2.3 模型属性定义

2.3.1 动作空间

行为是DDQN中的一个重要部分,它列出了智能体与环境交互的所有方式。本文行为 A t(上滑、下滑、停止)被定义为一个多维参数空间,其中每个维度对应于一个不同的动作类型,分别包括平移、缩放和停止动作。测井曲线的平移动作 A t , l可以被定义为智能体在测井曲线序列上选择一个向上或向下移动的步长,这里动作步长取值范围为移动1个采样间隔单元到40个深度单元,即 A t , l = 20 a t , l 20 , a t , l N。测井曲线的缩放动作 A t , 2主要是通过Akima分段3次多项式插值方法来调整目标特征的采样间隔实现测井曲线深度匹配。Akima插值算法是一种高效的分段插值方法,其将滑动窗口内的曲线分为多个小段,在第k k = 1 , n 1)小段上相邻的端点( ( x k , y k ), ( x k + 1 , y k + 1 ))内使用一个3次多项式来逼近连续曲线,以获得更好的光滑性[29],如(7)式、(8)式。缩放动作被定义为在测井曲线目标特征序列上增加或减少采样点的间隔, A t , 2 = a t , 2 [ 0 ,   0.15 ]表示智能体可以选择一个百分比来插入或删除0~15%数量的采样点。滑动窗口范围内插入了多少采样点,同时智能体就会对特征序列采取随机方式删除多少采样点,还原测井曲线的采样点数。
S x = A k + B k x x k 2 + C k x x k 2 + D k x x k 3
A k = y k B k = ω k = m i + 1 m i m i 1 + m i 1 m i 2 m i m i + 1 m i + m i 1 m i 2 C k = 3 m k 2 ω k ω k + 1 x k + 1 x k D k = ω k + 1 + ω k 2 m k x k + 1 x k 2
其中 m k = y k + 1 y k x k + 1 x k

2.3.2 奖励函数

奖励函数是DDQN中的一个关键参数,其目的是鼓励智能体观察当前状态采用一种积极的行为获得更显著的价值回报。奖励函数设置的方式是如果目标特征序列朝正确的方向移动或缩放,就会对动作进行积极的奖励;如果朝错误的方向演化,则会给出一个较低的分数来惩罚错误的动作。在本文中,奖励函数的设计主要考虑了匹配精度,鼓励智能体在深度匹配中尽量减小预测深度与实际深度之间的差异,如(9)式所示。匹配精度是指智能体在深度匹配过程中预测目标测井曲线的深度值和实际参考测井曲线的深度值之间的均方误差(MSE),如(10)式,奖励函数在连续的值范围 0 , 1.1内提供反馈信号。智能体根据反馈信号的大小,通过最大化测井曲线之间相似特征序列的深度匹配精度和微调深度校正值来逐步逼近实际参考曲线的深度值,尽可能保证测井曲线之间的相似性。
r t , i = α exp β M S E s t , i ,   s t + 1 , i
M S E = 1 n i = 1 n φ p φ t 2

2.4 模型评价指标

在模型评估任务中,本文采用平均匹配系数(R)、平均绝对误差(MAE)、均方误差(MSE)和决定系数(R2)作为预测效果的评价指标,如(11)—(13)式。其中,匹配相关系数衡量了测井曲线之间特征序列的匹配相似程度,取值范围为-1~1[30]。当R趋近于1时表示特征序列完全匹配,0表示特征序列之间没有相关关系,-1表示特征序列存在负相关[30]。当MAEMSE值越小和R2值越大时,目标测井曲线与参考测井曲线的匹配效果越好。
R = y i u ¯ i y ^ i v ¯ i y i u ¯ i 2 y ^ i v ¯ i 2
M A E = 1 N i = 1 N y i y ^ i
R 2 = 1 i = 1 n y ^ i y i 2 i = 1 n y i y ¯ i 2

3 实例应用

3.1 多测井曲线深度校正的应用

以中国东北SL盆地的S油田中东部的一个背斜构造断块油藏作为研究对象,该断块L区域有16口井118条未经过深度校正的测井曲线样本。数据按照井数3:1的比例随机划分为训练集和测试集,其中训练集有12口井的91条测井曲线,测试集有4口井的27条测井曲线。每一口井包含GR1GR2SP、ΔtϕCNLρRLLSRLLD等8条常规测井曲线,除少数井缺失SP曲线外,每一条测井曲线有5 000~22 000个采样数据点不等。这里多智能体深度强化学习是通过多个智能体分别处理不同井的测井曲线,模型训练学习的对象是测井曲线上滑动窗口内的特征序列,因而可以很好地应对不同井的测井曲线数量不一致的情况,具备较高的灵活性。然后将划分好的训练集用于训练多智能体强化学习模型,利用数据样本训练模型1 000轮次,MARL模型训练流程如图3所示。在训练的过程中使用网格搜索法进行模型调优,以获得更好的模型学习性能,具体模型参数设置见表1。经验回放池要容纳尽可能多的训练样本以实现更好的训练,其大小为1×106。DDQN模型中贪婪策略(ε-greedy)是一种探索和利用之间平衡的策略[27],其ε值被设置为以1×10-5的增量从1.0逐渐衰减到0.1。当模型训练完以后,便可以在新的测试集上预测测井曲线深度校正的结果。
表1 模型网络超参数
超参数 描述
学习速率 0.000 1 控制模型权重的更新速度
批量样本 16 每次迭代更新模型参数的训练样本数量
折扣因子 0.99 用于计算、衡量未来奖励的权重大小
卷积核 3 卷积核的尺寸大小,1×3
池化层 最大池化 提取更显著的特征,一维尺寸为1×2
步幅 3 卷积核在输入数据特征上滑动的步长
激活函数 ReLU 定义神经元输出的计算方式
优化函数 Adam 调整模型参数以最小化损失函数

3.2 测井曲线之间相似特征的匹配结果

多条测井曲线的相似特征匹配是通过一个双滑动窗口捕捉测井曲线之间具有相似特征序列的过程,如图5所示。一个滑动窗口(Win1)在参考曲线(GR1)上自上而下滑动,并在时间步t停留在一个深度段(di)上,此时滑动窗口内的测井曲线片段(lt)作为参考特征。然后,另一个可变滑动窗口(Win2)在目标曲线(GR2ϕCNL等)对应的深度段上根据反馈回来的相关系数得分来向上、向下滑动寻找与之相似的特征。由于本文测井曲线之间的深度校正量小于30 m,故设定滑动窗口Win2在目标测井曲线上的深度段(di ±30 m)范围内上下滑动寻找相似特征,而不是整段目标测井曲线。如果2个特征序列的匹配系数得分大于预先设定的阈值(0.9),则认为这2个特征序列匹配成功,否则将会继续在滑动窗口周围上下移动进行匹配;如果智能体观察到在目标测井曲线上的深度段(di±30 m)范围内从上至下滑动始终没有找到相似特征段(di),则2个滑动窗口将会放弃该特征段,并继续捕捉下一个深度段(di+1)的相似特征(lt+1)。而没有捕捉到的特征段(lt)的第1个采样点会自动对齐到上一特征段(lt-1)的最后一个采样点之下,并根据参考测井曲线的长度通过缩放动作进行微调完成深度对齐。总之,测井曲线深度校正过程中不必要求找到所有的相似特征段,只需通过一个卷积神经网络量化2个不同测井曲线段之间的匹配概率,捕捉到最具有代表性的校正特征段。在S油田L研究区域应用中,单独的测试数据集上GR2GR1曲线之间的平均匹配精度(R)达到了88.25%,井中其他测井曲线的匹配精度和标准差(σ)结果如表2所示。整体而言,GR2GR1曲线之间匹配精度相对较高,标准偏差相对较低,其次依次是SPϕCNLRLLDRLLSρ与Δt。可能的原因是GR曲线之间测量的是相同的物理量,在同一地层背景下提供的特征信息更具有相似性。而其他的测井曲线(ϕCNL、Δt等)与GR曲线是2种完全不同的物理量,依靠的是2种曲线在同一地层条件下可能存在特征相关性来进行匹配。一旦滑动窗口在多个测井曲线之间捕捉到相似的目标深度段(di),智能体就会观察到当前环境中测井曲线匹配的状态s,并选取最优的动作(平移或缩放)作用于环境以更新到新的状态$s'$。如果智能体计算当前参考曲线与目标曲线深度值之间的差异(MSE)低于预设的阈值(0.05)且不再显著下降,此时可认为该特征序列匹配效果较好,否则将继续下一轮新的任务。
图5 目标测井曲线ϕCNL与参考曲线GR1的特征匹配过程
表2 测试集中各测井曲线捕捉相似特征段的平均匹配系数和标准差
井号 GR1-GR2 SP-GR1 Δt-GR1 ϕCNL-GR1 ρ-GR1 RLLD-GR1 RLLS-GR1
R σ R σ R σ R σ R σ R σ R σ
L1-9 0.89 0.20 0.38 0.42 0.68 0.27 0.46 0.34
S2-16 0.86 0.24 0.31 0.46 0.65 0.31 0.40 0.39 0.49 0.26 0.48 0.27
L1-10 0.91 0.21 0.79 0.32 0.36 0.40 0.73 0.25 0.49 0.35 0.50 0.26 0.50 0.25
L1-11 0.87 0.23 0.33 0.44 0.67 0.28 0.43 0.36 0.53 0.22 0.52 0.24

3.3 基于DDQN的多测井曲线深度校正预测结果

一维CNN滑动窗口对测井曲线上采样点特征序列进行卷积并输入到MARL模型中进行学习,经过多轮训练后,将训练好的模型在新的测试集上进行深度匹配预测。图6a展示的是智能体在环境中的训练性能, 训练误差在初始阶段迅速下降,并在后续阶段逐渐减小和趋于稳定。这表明模型在初始阶段通过快速学习和反馈信号学习到了优化策略来校正曲线,而在后续阶段的学习过程则是对模型进行微调,智能体在环境中学习的损失函数值及振幅越来越小,表明学习效果也越好。图6b是智能体在训练集上学习过程中获得的奖励函数,其反映了深度匹配任务的目标优化效果。从图中可以看出,奖励函数从一个较低的值开始,随着时间步数逐渐上升并最终稳定在0.834左右,这表明模型对测井曲线的深度校正与真实数据之间的相关性在训练过程中逐步增强,学习效果较好。图7是S油田上测试集中的一口井L1-11井的深度匹配预测效果,对比原始测井曲线与校正后的测井曲线之间的深度差异,DDQN算法在目标测井曲线(GR2ϕCNLρ等)和参考测井曲线(GR1)上能够很好地捕捉到大多相似特征段。校正后的目标测井曲线能很好地与参考曲线深度对齐,特别是在关键特征段上表现出较好的匹配效果(见图7)。图7中测井曲线上同一个深度位置的红色方框展示了利用DDQN方法进行深度校正前后有明显变化的测井曲线特征,整体上,经过DDQN深度校正后的测井曲线匹配效果较好。
图6 基于DDQN算法的智能体在训练集上的平均损失函数变化及平均奖励函数变化
图7 L1-11井中利用DDQN算法进行多条测井曲线深度匹配结果

3.4 不同方法的预测结果对比

以下比较DTW、DQN与DDQN方法在S油田另一口新测试井(L1-10井)上的深度匹配预测结果以及CIFLog软件手动校正结果。将不同趟次的GR2GR1曲线进行深度校正前后的深度匹配效果绘制在图8中,并将ϕCNLGR1曲线的深度匹配效果绘制在图9中。从图8图9中可以看出,DDQN在目标测井曲线(GR2ϕCNL)和参考测井曲线(GR1)上能够很好地捕捉到特征明显的相似深度段(红色方框内),预测的匹配效果整体比手动校正、DTW和DQN更好,且减少了人工干预。其中,图8 GR曲线深度匹配效果要比图9ϕCNL的匹配效果要好,这可能是因为GRϕCNL测试的是不同的物理量来评价地层性质。GR测试的是地层中自然放射性元素含量,ϕCNL测试的是地层含氢量,两者在物理信号上存在一定偏差,而GR曲线之间测量的是同一自然放射性参数,相似物理信号更容易捕捉。但幸运的是,DDQN算法可以捕捉到大部分特征明显的测井相似序列段,从而保证整体的匹配精度较好(见图9)。另外,DTW对于测井曲线上简单的特征序列匹配效果较好,而对于复杂的测井序列数据,尤其是那些包含非线性特征较强的数据(如图8中在3 055 m、3 140 m附近的深度段),校正效果不是很好。DQN尽管在非线性特征变化显著的数据序列上比DTW表现得好一些,但它仍然受到Q值高估的影响,导致校正曲线与真实曲线之间仍然存在着轻微偏差(如图8中3 055 m附近和图9中2 965 m附近)。另外,本文预测模型均是在一个4.90 GHz英特尔i7-12700 CPU和一张3 080英伟达显卡的电脑上运行。如表3所示,DDQN相较于DQN训练需要消耗更多的计算时间,DQN执行需要16.53 min,DDQN需要23.26 min。同时,表3中也统计了不同方法在测试集上基于双滑动窗口捕捉到的相似特征进行深度校正后的评价结果。从表3中统计的预测结果中可以看出,不同方法整体上的深度匹配效果较好,但是DDQN方法的RMAER2要优于DQN和DTW方法。DQN在测试集上的预测效果相对DDQN而言还存在一些差距,在图8图9中的复杂特征段附近DQN的校正曲线与真实曲线之间存在着轻微偏差,这说明DDQN算法在匹配效果和降低误差方面比DQN算法表现更好。
图8 L1-10井中利用不同方法进行GR2GR1曲线深度匹配后的结果
图9 L1-10井中利用不同方法进行ϕCNLGR1曲线深度匹配后的结果
表3 不同测井曲线深度校正方法的评估结果
算法 R MAE R2 MSE 奖励 时间/min
DTW 0.801 0.635 9 0.783 0.462 7
DQN 0.836 0.509 2 0.807 0.291 4 0.715 16.53
DDQN 0.884 0.393 4 0.816 0.176 2 0.793 23.26

4 结论

本文提出了一套测井曲线自动深度匹配的多智能体深度强化学习方法,并在S油田中进行应用。该方法的流程如下:首先,提出一个可变的一维CNN双滑动窗口自上而下地提取测井曲线上的特征序列信号,利用空间相似性原理在目标测井曲线上捕捉到与参考测井曲线具有相似的特征序列;然后,基于值函数方法的DDQN算法被用来解决深度校正问题,智能体通过观察环境中双滑动窗口内相似特征的匹配状态,采用ε-greedy策略选择当前最大Q值函数所对应的动作来平移或缩放特征序列段来达到预期的匹配效果。本文DDQN算法继承了DQN算法的优点,在自动深度匹配任务中引入了一个双网络结构,即通过估值网络来选取动作,又通过目标网络计算这一动作的Q值,以避免Q值被过高估计。在此基础上,还引入了一个高维的动作空间(平移、缩放)和Akima插值完成多条测井曲线深度校正,这样就能实现复杂的深度对齐、调整偏差以及弱化选取起始状态的难度,进一步提高算法的预测精度。
在S油田实例应用中,对比分析了DTW、DQN和DDQN 3种算法的测试结果。DTW算法可以测量2个测井曲线之间的时间序列相似度,其在深度校正任务中可以较好地完成2条测井曲线之间的深度匹配任务,但是不能一次性处理多条测井曲线。同时DTW算法适合于处理时间序列相似的GR曲线之间的深度校正任务,因为它缺乏学习和适应新情况的能力,在其他目标测井曲线上遇到复杂的特征段时预测深度可能出现“滞后”现象。DQN与DDQN算法是基于智能体与环境的不断交互学习算法,具有较强的学习和适应新任务的能力,这两种方法是基于参考测井曲线的特征序列进行学习,不需要制作大量的数据标签,且同时处理多口井、多条测井曲线的深度校正任务。但是DQN算法在面对复杂的测井曲线特征段校正任务时,存在着动作价值Q函数高估的问题,这可能导致学习过程不稳定且预测结果也存在轻微的偏差。DDQN算法采用双网络评估机制改进了DQN算法的性能,虽然消耗的时间稍微偏长,但其所产生的匹配效果较好。
符号注释:
a a ——当前时间步和下一时间步智能体采取的动作;argmax——argmax函数; a t , i——第i个智能体在时间步t采取的动作,i=1, 2, …, N A k——点 ( x k , y k )对应的纵坐标, A k = y kk=1, 2, …, N A t ——在时间步t多智能体采取的动作空间; B k——Akima插值函数的系数; C i , j—— C m × n矩阵中第ij列的元素; C m × n——DTW算法中的成本矩阵; C k D k——Akima插值函数在第k分段 x k处的2阶、3阶导数;d——测井采样间隔长度,d=0.125 m; D i , j——矩阵中相应点xiyj之间的欧氏距离, D i , j = x i y j E——期望值运算符;GR——自然伽马,API;Loss——损失函数;lt——t时间步滑动窗口内测井曲线序列特征长度,m;min——DTW算法中最小累计欧氏距离函数; max a Q = max a Q ( s , a ; θ )——在状态 s '下智能体选择的最优动作; m k——由滑动窗口内第k分段曲线的节点计算的斜率;MAE——平均绝对误差;MSE——均方误差; n 1 n 2——滑动窗口内的采样点数, n 1 { 10 , 20 }, n 2 ( 0 , 20 ]N——智能体的总个数; P t——在时间步t多智能体从环境状态到采取行动的映射策略的集合; Q ( s , a ; θ )——Q值函数;R——平均匹配系数;R2——决定系数; R t + 1——在时间步t多智能体获得的奖励空间; r t , i——第i个智能体在时间步t获得的奖励;RLLD——深侧向电阻率,Ω·m;RLLS——浅侧向电阻率,Ω·m;s s ——当前时间步和下一时间步测井曲线的匹配状态;softmax——机器学习分类任务中的概率分布函数; s t , i——第i个智能体在时间步t观察到测井曲线的匹配状态;SP——自然电位,mV; S t——在时间步t多智能体观察到测井曲线的状态空间集合;t——时间步编号; u ¯ i——目标测井曲线上采样点深度的均值,m; v ¯ i——参考测井曲线上采样点深度的均值,m;Win1Win2——双滑动窗口;xi——参考测井曲线上第i个采样点的深度,m;xj——目标测井曲线上第j个采样点的深度,m;X={x1, x2 ,…, xn},Y={y1, y2,…, yn}——测井曲线上的采样点集合; y i——参考测井曲线上第i个采样点的深度(真实值),m; y ^ i——目标测井曲线上相似特征序的第i个采样点的深度(预测值),m;αβ——奖励函数匹配精度的权重,α=1.1,β=2.3; π t , N ——第N个智能体在时间步t采取一个从状态st,i到动作at,i的映射策略;γ——折扣因子;θ——当前估值网络的权重; θ ——下一步状态更新后估值网络的权重; θ ——下一步状态更新后目标网络的权重;ϕCNL——补偿中子孔隙度,%;ϕp——智能体在深度匹配过程中预测目标测井曲线的深度值,m;ϕt——实际参考测井曲线的深度值,m;ρ——密度,g/cm3 ——学习率;Δt——声波时差,μs/m; Q ( s , a ; θ )——Q值函数关于参数θ的梯度; ω k——Akima插值函数的权重;σ——基于DDQN方法的预测值与平均值之间的标准差;ε——ε-greedy策略中用于平衡探索和利用的参数; ( x k , y k ) ( x k + 1 , y k + 1 )——利用Akima插值时测井曲线上第k分段曲线两端的节点坐标;(x, S(x))——滑动窗口内第k分段曲线的插值点坐标。
[1]
LE T, LIANG L, ZIMMERMANN T, et al. A machine learning framework for automating well-log depth matching[J]. Petrophysics, 2019, 60(5): 585-595.

[2]
BOLT H. Wireline logging depth quality improvement: Methodology review and elastic-stretch correction[J]. Petrophysics, 2016, 57(3): 294-310.

[3]
ZIMMERMANN T, LIANG L, ZEROUG S. Machine-learning-based automatic well-log depth matching[J]. Petrophysics, 2018, 59(6): 863-872.

[4]
EZENKWU C P, GUNTORO J, STARKEY A, et al. Automated well-log pattern alignment and depth-matching techniques: An empirical review and recommendations[J]. Petrophysics, 2023, 64(1): 115-129.

[5]
LUTHI S M, BRYANT L D. Well-log correlation using a back- propagation neural network[J]. Mathematical Geology, 1997, 29(3): 413-425.

[6]
TORRES CACERES V, DUFFAUT K, YAZIDI A, et al. Automated well-log depth matching-1D convolutional neural networks vs. classic cross correlation[J]. Petrophysics, 2022, 63(1): 12-34.

[7]
高杰, 谢然红. 大斜度井侧向测井三维正演数值模拟及曲线快速校正方法研究[J]. 石油勘探与开发, 2000, 27(2): 69-71.

GAO Jie, XIE Ranhong. 3D numerical forward modeling and fast correction of dual-later log for high angle deviated wells[J]. Petroleum Exploration and Development, 2000, 27(2): 69-71.

[8]
ZI Y, FAN L, WU X, et al. Active gamma-ray log pattern localization with distributionally robust reinforcement learning[J]. IEEE Transactions on Geoscience and Remote Sensing, 2023, 61: 1-11.

[9]
KERZNER M G. A solution to the problem of automatic depth matching[R]. New Orleans, USA: SPWLA, 1984.

[10]
LINEMAN D J, MENDELSON J D, TOKSOZ M N. Well to well log correlation using knowledge-based systems and dynamic depth warping[R]. London, England: SPWLA, 1987.

[11]
WANG S, SHEN Q, WU X, et al. Automated gamma-ray log pattern alignment and depth matching by machine learning[J]. Interpretation, 2020, 8(3): 25-34.

[12]
AACH J, CHURCH G M. Aligning gene expression time series with time warping algorithms[J]. Bioinformatics, 2001, 17(6): 495-508.

PMID

[13]
PETITJEAN F, KETTERLIN A, GANçARSKI P. A global averaging method for dynamic time warping, with applications to clustering[J]. Pattern Recognition, 2011, 44(3): 678-693.

[14]
MEI J, LIU M, WANG Y, et al. Learning a mahalanobis distance- based dynamic time warping measure for multivariate time series classification[J]. IEEE Transactions on Cybernetics, 2016, 46(6): 1363-1374.

[15]
WANG K M, GASSER Theo. Alignment of curves by dynamic time warping[J]. The Annals of Statistics, 1997, 25(3): 1251-1276.

[16]
IWANA B K, FRINKEN V, UCHIDA S. DTW-NN: A novel neural network for time series recognition using dynamic alignment between inputs and weights[J]. Knowledge-Based Systems, 2020, 188(1): 104971.

[17]
匡立春, 刘合, 任义丽, 等. 人工智能在石油勘探开发领域的应用现状与发展趋势[J]. 石油勘探与开发, 2021, 48(1): 1-11.

DOI

KUANG Lichun, LIU He, REN Yili, et al. Application and development trend of artificial intelligence in petroleum exploration and development[J]. Petroleum Exploration and Development, 2021, 48(1): 1-11.

[18]
李小波, 李欣, 闫林, 等. 采用带注意力机制3D U-Net网络的地质模型参数化技术[J]. 石油勘探与开发, 2023, 50(1): 167-173.

DOI

LI Xiaobo, LI Xin, YAN Lin, et al. A 3D attention U-Net network and its application in geological model parameterization[J]. Petroleum Exploration and Development, 2023, 50(1): 167-173.

[19]
SHAHKARAMI A, MOHAGHEGH S. 智能代理在油藏建模中的应用[J]. 石油勘探与开发, 2020, 47(2): 372-382.

DOI

SHAHKARAMI A, MOHAGHEGH S. Applications of smart proxies for subsurface modeling[J]. Petroleum Exploration and Development, 2020, 47(2): 372-382.

[20]
刘国强, 龚仁彬, 石玉江, 等. 油气层测井知识图谱构建及其智能识别方法[J]. 石油勘探与开发, 2022, 49(3): 502-512.

DOI

LIU Guoqiang, GONG Renbin, SHI Yujiang, et al. Construction of well logging knowledge graph and intelligent identification method of hydrocarbon-bearing formation[J]. Petroleum Exploration and Development, 2022, 49(3): 502-512.

[21]
BRAZELL S, BAYEH A, ASHBY M, et al. A machine-learning- based approach to assistive well-log correlation[J]. Petrophysics, 2019, 60(4): 469-79.

[22]
TORRES CACERES V, DUFFAUT K, YAZIDI A, et al. Automated well log depth matching: late fusion multimodal deep learning[J]. Geophysical Prospecting, 2022, 72(3): 155-182.

[23]
张东晓, 陈云天, 孟晋. 基于循环神经网络的测井曲线重构方法[J]. 石油勘探与开发, 2018, 45(4): 598-607.

DOI

ZHANG Dongxiao, CHEN Yuntian, MENG Jin. Synthetic well logs generation via recurrent neural networks[J]. Petroleum Exploration and Development, 2018, 45(4): 598-607.

[24]
BITTAR M, WANG S, CHEN J, et al. Reinforced learning technique for multi-well logs depth matching yield better reservoir delineation[R]. Virtual: SEG International Exposition and Annual Meeting, 2020.

[25]
雍世和, 张超谟. 测井数据处理与综合解释[M]. 北京: 中国石油大学出版社, 1996.

YONG Shihe, ZHANG Chaomo. The data processing and comprehensive interpretation[M]. Beijing: China University of Petroleum Press, 1996.

[26]
MNIH V, KAVUKCUOGLU K, SILVER D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015, 518(7540): 529-33.

[27]
HE Z, TRAN K P, THOMASSEY S, et al. Multi-objective optimization of the textile manufacturing process using deep- Q-network based multi-agent reinforcement learning[J]. Journal of Manufacturing Systems, 2021, 62: 939-949.

[28]
FAHRMANN D, JOREK N, DAMER N, et al. Double deep Q- learning with prioritized experience replay for anomaly detection in smart environments[J]. IEEE Access, 2022, 10: 60836-60848.

[29]
ALI M, MUHAMMAD D, SMIEEE K, et al. A new approach to empirical mode decomposition based on Akima spline interpolation technique[J]. IEEE Access, 2023, 11: 67370-67384.

[30]
程冰洁, 徐天吉, 罗诗艺, 等. 基于机器学习的深层页岩有利储集层预测方法及实践[J]. 石油勘探与开发, 2022, 49(5): 918-928.

DOI

CHENG Bingjie, XU Tianji, LUO Shiyi, et al. Method and practice of deep favorable shale reservoir prediction based on machine learning[J]. Petroleum Exploration and Development, 2022, 49(5): 918-928.

文章导航

/