ChatPaper.aiChatPaper

T2R-bench: 실제 산업 현장의 테이블 데이터를 기반으로 한 기사 수준 보고서 생성을 위한 벤치마크

T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

August 27, 2025
저자: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI

초록

대규모 언어 모델(LLM)의 테이블 추론 능력을 탐구하기 위해 광범위한 연구가 진행되어 왔습니다. 그러나 산업 응용 분야에서 테이블 정보를 보고서로 변환하는 핵심 작업은 여전히 상당한 과제로 남아 있습니다. 이 작업은 두 가지 중요한 문제로 인해 어려움을 겪고 있습니다: 1) 테이블의 복잡성과 다양성으로 인해 최적의 추론 결과를 얻기 어렵고, 2) 기존의 테이블 벤치마크가 이 작업의 실질적인 적용을 충분히 평가할 수 있는 능력이 부족합니다. 이러한 격차를 메우기 위해, 우리는 테이블-투-리포트(table-to-report) 작업을 제안하고 T2R-bench라는 이중 언어 벤치마크를 구축했습니다. 이 벤치마크는 테이블에서 보고서로의 핵심 정보 흐름을 중심으로 설계되었습니다. T2R-bench는 19개의 산업 분야와 4가지 유형의 산업 테이블을 포함하는 457개의 실제 시나리오에서 도출된 테이블로 구성되어 있습니다. 또한, 보고서 생성의 품질을 공정하게 측정하기 위한 평가 기준을 제안합니다. 25개의 널리 사용되는 LLM에 대한 실험 결과, Deepseek-R1과 같은 최첨단 모델도 62.71의 전체 점수를 달성하는 데 그쳐, LLM이 T2R-bench에서 여전히 개선의 여지가 있음을 보여줍니다. 소스 코드와 데이터는 논문 승인 후 공개될 예정입니다.
English
Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench. Source code and data will be available after acceptance.
PDF202September 2, 2025