OpenRCA 数据集中的 Telecom 数据集介绍
概述
Telecom 数据集是 OpenRCA 基准测试中的核心组成部分之一,源自真实的企业级电信运营系统,专门用于评估大语言模型(LLMs)在复杂分布式系统中进行故障根因分析(Root Cause Analysis, RCA)的能力。该基准已被 ICLR 2025 会议接收 [[10]]。
系统架构
Telecom 系统采用分布式云数据库架构,包含以下核心组件 [[23]]:
| 组件类型 | 数量 | 说明 |
|---|---|---|
| 虚拟机操作系统(VM OS) | 22 个 | 底层计算资源节点 |
| Kubernetes Pods | 8 个 | 容器化应用实例 |
| 数据库服务 | 13 个 | 核心数据存储与处理 |
| Redis 中间件服务 | 12 个 | 缓存与消息队列服务 |
| 其他组件 | 多个 | 网络、监控等辅助服务 |
💡 与 OpenRCA 中的另外两个系统(Bank 银行系统、Market 电商系统)不同,Telecom 代表典型的分布式云数据库架构,而 Bank 和 Market 采用微服务架构 [[22]]。
数据规模与组成
- 故障案例数量:Telecom 系统贡献了 OpenRCA 总计 335 个真实故障案例中的 51 个 [[25]]
- 遥测数据总量:整个 OpenRCA 数据集包含 超过 68 GB 的多模态遥测数据 [[10]]
- 数据类型:
- Metrics(指标):时间序列形式的关键性能指标(KPI)
- Traces(追踪):服务调用链与分布式追踪数据(含 JDBC 调用链等)
- Logs(日志):系统运行时结构化与非结构化日志
应用场景
Telecom 数据集适用于以下研究方向:
✅ 评估 LLMs 在云原生环境下的根因定位能力
✅ 测试多智能体系统对异构遥测数据的融合分析能力
✅ 验证自动化 RCA 工具在电信级分布式系统中的有效性
✅ 研究系统拓扑理解与故障传播路径推理
数据获取
# 通过 gdown 下载(需安装 gdown: pip install gdown)
gdown https://drive.google.com/uc?id=<dataset_id>
# 或访问官方 GitHub 仓库
https://github.com/microsoft/OpenRCA
⚠️ 下载后请将数据解压至
dataset/目录,数据解压后约 26–68 GB(取决于是否包含全部遥测数据)[[7]]
参考文献
- 论文标题:OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?
- 会议:ICLR 2025(第 13 届国际学习表征会议)
- 机构:微软研究院、香港中文大学(深圳)、清华大学等联合提出
- 开源地址:https://github.com/microsoft/OpenRCA