ChatPaper.aiChatPaper

T2R-bench: Um Benchmark para Geração de Relatórios em Nível de Artigo a partir de Tabelas Industriais do Mundo Real

T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

August 27, 2025
Autores: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI

Resumo

Extensas pesquisas foram realizadas para explorar as capacidades dos grandes modelos de linguagem (LLMs) no raciocínio sobre tabelas. No entanto, a tarefa essencial de transformar informações de tabelas em relatórios continua sendo um desafio significativo para aplicações industriais. Essa tarefa é afetada por dois problemas críticos: 1) a complexidade e diversidade das tabelas levam a resultados de raciocínio subótimos; e 2) os benchmarks existentes para tabelas não possuem a capacidade de avaliar adequadamente a aplicação prática dessa tarefa. Para preencher essa lacuna, propomos a tarefa de tabela-para-relatório e construímos um benchmark bilíngue chamado T2R-bench, onde o fluxo de informações-chave das tabelas para os relatórios é central para essa tarefa. O benchmark é composto por 457 tabelas industriais, todas derivadas de cenários do mundo real e abrangendo 19 domínios industriais, além de 4 tipos de tabelas industriais. Além disso, propomos critérios de avaliação para medir de forma justa a qualidade da geração de relatórios. Os experimentos com 25 LLMs amplamente utilizados revelam que até mesmo modelos de última geração, como o Deepseek-R1, alcançam um desempenho com pontuação geral de apenas 62,71, indicando que os LLMs ainda têm espaço para melhorias no T2R-bench. O código-fonte e os dados estarão disponíveis após a aceitação.
English
Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench. Source code and data will be available after acceptance.
PDF234September 2, 2025