T2R-bench: Un punto de referencia para la generación de informes a nivel de artículo a partir de tablas industriales del mundo real
T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables
August 27, 2025
Autores: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI
Resumen
Se ha realizado una extensa investigación para explorar las capacidades de los modelos de lenguaje de gran escala (LLMs) en el razonamiento sobre tablas. Sin embargo, la tarea esencial de transformar la información de las tablas en informes sigue siendo un desafío significativo para las aplicaciones industriales. Esta tarea se ve afectada por dos problemas críticos: 1) la complejidad y diversidad de las tablas conducen a resultados de razonamiento subóptimos; y 2) los benchmarks existentes para tablas carecen de la capacidad para evaluar adecuadamente la aplicación práctica de esta tarea. Para llenar este vacío, proponemos la tarea de tabla-a-informe y construimos un benchmark bilingüe llamado T2R-bench, donde se sigue el flujo clave de información desde las tablas hasta los informes para esta tarea. El benchmark comprende 457 tablas industriales, todas derivadas de escenarios del mundo real y abarcando 19 dominios industriales, así como 4 tipos de tablas industriales. Además, proponemos un criterio de evaluación para medir de manera justa la calidad de la generación de informes. Los experimentos con 25 LLMs ampliamente utilizados revelan que incluso modelos de última generación como Deepseek-R1 solo alcanzan un rendimiento con una puntuación general de 62.71, lo que indica que los LLMs aún tienen margen de mejora en T2R-bench. El código fuente y los datos estarán disponibles después de la aceptación.
English
Extensive research has been conducted to explore the capabilities of large
language models (LLMs) in table reasoning. However, the essential task of
transforming tables information into reports remains a significant challenge
for industrial applications. This task is plagued by two critical issues: 1)
the complexity and diversity of tables lead to suboptimal reasoning outcomes;
and 2) existing table benchmarks lack the capacity to adequately assess the
practical application of this task. To fill this gap, we propose the
table-to-report task and construct a bilingual benchmark named T2R-bench, where
the key information flow from the tables to the reports for this task. The
benchmark comprises 457 industrial tables, all derived from real-world
scenarios and encompassing 19 industry domains as well as 4 types of industrial
tables. Furthermore, we propose an evaluation criteria to fairly measure the
quality of report generation. The experiments on 25 widely-used LLMs reveal
that even state-of-the-art models like Deepseek-R1 only achieves performance
with 62.71 overall score, indicating that LLMs still have room for improvement
on T2R-bench. Source code and data will be available after acceptance.