T2R-bench: Un Benchmark per la Generazione di Report a Livello di Articolo da Tabelle Industriali del Mondo Reale
T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables
August 27, 2025
Autori: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI
Abstract
È stata condotta un'ampia ricerca per esplorare le capacità dei grandi modelli linguistici (LLM) nel ragionamento su tabelle. Tuttavia, il compito essenziale di trasformare le informazioni delle tabelle in report rimane una sfida significativa per le applicazioni industriali. Questo compito è afflitto da due problemi critici: 1) la complessità e la diversità delle tabelle portano a risultati di ragionamento subottimali; e 2) i benchmark esistenti per le tabelle non hanno la capacità di valutare adeguatamente l'applicazione pratica di questo compito. Per colmare questa lacuna, proponiamo il compito table-to-report e costruiamo un benchmark bilingue denominato T2R-bench, in cui il flusso di informazioni chiave dalle tabelle ai report è centrale per questo compito. Il benchmark comprende 457 tabelle industriali, tutte derivate da scenari reali e che abbracciano 19 domini industriali, nonché 4 tipi di tabelle industriali. Inoltre, proponiamo un criterio di valutazione per misurare equamente la qualità della generazione dei report. Gli esperimenti su 25 LLM ampiamente utilizzati rivelano che anche modelli all'avanguardia come Deepseek-R1 raggiungono solo una performance con un punteggio complessivo di 62,71, indicando che i LLM hanno ancora margine di miglioramento su T2R-bench. Il codice sorgente e i dati saranno disponibili dopo l'accettazione.
English
Extensive research has been conducted to explore the capabilities of large
language models (LLMs) in table reasoning. However, the essential task of
transforming tables information into reports remains a significant challenge
for industrial applications. This task is plagued by two critical issues: 1)
the complexity and diversity of tables lead to suboptimal reasoning outcomes;
and 2) existing table benchmarks lack the capacity to adequately assess the
practical application of this task. To fill this gap, we propose the
table-to-report task and construct a bilingual benchmark named T2R-bench, where
the key information flow from the tables to the reports for this task. The
benchmark comprises 457 industrial tables, all derived from real-world
scenarios and encompassing 19 industry domains as well as 4 types of industrial
tables. Furthermore, we propose an evaluation criteria to fairly measure the
quality of report generation. The experiments on 25 widely-used LLMs reveal
that even state-of-the-art models like Deepseek-R1 only achieves performance
with 62.71 overall score, indicating that LLMs still have room for improvement
on T2R-bench. Source code and data will be available after acceptance.