OpenRCA Telecom数据集分享

A min to read

OpenRCA 数据集中的 Telecom 数据集介绍

概述

Telecom 数据集OpenRCA 基准测试中的核心组成部分之一,源自真实的企业级电信运营系统,专门用于评估大语言模型(LLMs)在复杂分布式系统中进行故障根因分析(Root Cause Analysis, RCA)的能力。该基准已被 ICLR 2025 会议接收 [[10]]。

系统架构

Telecom 系统采用分布式云数据库架构,包含以下核心组件 [[23]]:

组件类型 数量 说明
虚拟机操作系统(VM OS) 22 个 底层计算资源节点
Kubernetes Pods 8 个 容器化应用实例
数据库服务 13 个 核心数据存储与处理
Redis 中间件服务 12 个 缓存与消息队列服务
其他组件 多个 网络、监控等辅助服务

💡 与 OpenRCA 中的另外两个系统(Bank 银行系统、Market 电商系统)不同,Telecom 代表典型的分布式云数据库架构,而 Bank 和 Market 采用微服务架构 [[22]]。

数据规模与组成

  • 故障案例数量:Telecom 系统贡献了 OpenRCA 总计 335 个真实故障案例中的 51 个 [[25]]
  • 遥测数据总量:整个 OpenRCA 数据集包含 超过 68 GB 的多模态遥测数据 [[10]]
  • 数据类型
    • Metrics(指标):时间序列形式的关键性能指标(KPI)
    • Traces(追踪):服务调用链与分布式追踪数据(含 JDBC 调用链等)
    • Logs(日志):系统运行时结构化与非结构化日志

应用场景

Telecom 数据集适用于以下研究方向:

✅ 评估 LLMs 在云原生环境下的根因定位能力
✅ 测试多智能体系统对异构遥测数据的融合分析能力
✅ 验证自动化 RCA 工具在电信级分布式系统中的有效性
✅ 研究系统拓扑理解与故障传播路径推理

数据获取

# 通过 gdown 下载(需安装 gdown: pip install gdown)
gdown https://drive.google.com/uc?id=<dataset_id>

# 或访问官方 GitHub 仓库
https://github.com/microsoft/OpenRCA

⚠️ 下载后请将数据解压至 dataset/ 目录,数据解压后约 26–68 GB(取决于是否包含全部遥测数据)[[7]]

参考文献

  • 论文标题OpenRCA: Can Large Language Models Locate the Root Cause of Software Failures?
  • 会议:ICLR 2025(第 13 届国际学习表征会议)
  • 机构:微软研究院、香港中文大学(深圳)、清华大学等联合提出
  • 开源地址https://github.com/microsoft/OpenRCA