0 引言
1 油藏动态分析场景大模型构建思路
1.1 增量预训练
1.2 子系统指令微调
1.3 功能子系统耦合
2 面向油藏动态分析场景功能的模型微调实现与测试
2.1 分析建议模型的微调与测试
表1 分析建议模型的QA性能测试 |
评判 专家 | 评判样本 总数 | 相关维度 | 准确维度 | 完整维度 | 流畅维度 | ||||
---|---|---|---|---|---|---|---|---|---|
准确样本数 | 准确率/% | 准确样本数 | 准确率/% | 准确样本数 | 准确率/% | 准确样本数 | 准确率/% | ||
专家1 | 330 | 307 | 93.0 | 295 | 89.4 | 326 | 99.0 | 330 | 100.0 |
专家2 | 330 | 315 | 95.5 | 297 | 90.0 | 324 | 98.0 | 328 | 99.4 |
专家3 | 330 | 298 | 90.3 | 282 | 85.5 | 310 | 93.9 | 326 | 98.8 |
综合 | 330 | 92.9 | 88.3 | 96.7 | 99.4 |
2.2 特征提取模型的微调与测试
表2 命名实体识别模型的NER性能测试 |
命名实体 | 定义 | 总样本数 | 实体识别 | 数字变量实体识别 | 语意识别 | |||
---|---|---|---|---|---|---|---|---|
正确样本数 | 可识别率/% | 正确样本数 | 准确率/% | 正确样本数 | 准确率/% | |||
Well_id | 井号 | 1 300 | 1 275 | 98.1 | 1 247 | 96.5 | ||
Well_layer | 层号 | 1 300 | 1 235 | 95.0 | 1 222 | 94.0 | ||
Data_from | 起始时间 | 1 300 | 1 287 | 99.0 | 1 274 | 98.0 | ||
Data_to | 终止时间 | 1 300 | 1 287 | 99.0 | 1 274 | 98.0 | ||
Period | 阶段(如每年) | 1 300 | 1 261 | 97.0 | 1 274 | 98.0 | ||
Target | 主要问题(如产油) | 1 300 | 1 209 | 93.0 | 1 189 | 91.5 | ||
Wanted_type | 展示类型(如曲线图) | 1 300 | 1 235 | 95.0 | 1 168 | 89.8 |
2.3 数据检索模型的微调与测试
表3 数据检索模型的Text-to-SQL性能测试 |
模型准确率标准 | 微调前匹配情况 | 微调后匹配情况 | 微调后执行情况 | ||||
---|---|---|---|---|---|---|---|
分级 | 总样 本数 | 准确 样本数 | 准确率/ % | 准确 样本数 | 准确率/ % | 准确 样本数 | 准确率/ % |
简单 | 700 | 485 | 69.3 | 700 | 100.0 | 700 | 100.0 |
中等 | 500 | 337 | 67.4 | 498 | 99.6 | 462 | 92.4 |
复杂 | 80 | 46 | 57.5 | 70 | 87.5 | 53 | 66.3 |
极难 | 20 | 5 | 25.0 | 11 | 55.0 | 8 | 40.0 |
总体 准确率 | 67.3 | 98.3 | 95.2 |
2.4 工具分类模型的微调与测试
表4 3种不同的工具识别方法及其准确性评估 |
识别工具 | 准确样本数 | 准确率/% |
---|---|---|
NER直接识别工具 | 467 | 35.9 |
分类任务直接区分工具 | 423 | 32.5 |
NER提取主旨信息(Target)+ 分类任务区分工具 | 1 161 | 89.3 |