T2R-bench: Um Benchmark para Geração de Relatórios em Nível de Artigo a partir de Tabelas Industriais do Mundo Real

Resumo

Extensas pesquisas foram realizadas para explorar as capacidades dos grandes modelos de linguagem (LLMs) no raciocínio sobre tabelas. No entanto, a tarefa essencial de transformar informações de tabelas em relatórios continua sendo um desafio significativo para aplicações industriais. Essa tarefa é afetada por dois problemas críticos: 1) a complexidade e diversidade das tabelas levam a resultados de raciocínio subótimos; e 2) os benchmarks existentes para tabelas não possuem a capacidade de avaliar adequadamente a aplicação prática dessa tarefa. Para preencher essa lacuna, propomos a tarefa de tabela-para-relatório e construímos um benchmark bilíngue chamado T2R-bench, onde o fluxo de informações-chave das tabelas para os relatórios é central para essa tarefa. O benchmark é composto por 457 tabelas industriais, todas derivadas de cenários do mundo real e abrangendo 19 domínios industriais, além de 4 tipos de tabelas industriais. Além disso, propomos critérios de avaliação para medir de forma justa a qualidade da geração de relatórios. Os experimentos com 25 LLMs amplamente utilizados revelam que até mesmo modelos de última geração, como o Deepseek-R1, alcançam um desempenho com pontuação geral de apenas 62,71, indicando que os LLMs ainda têm espaço para melhorias no T2R-bench. O código-fonte e os dados estarão disponíveis após a aceitação.

English

Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench. Source code and data will be available after acceptance.

T2R-bench: Um Benchmark para Geração de Relatórios em Nível de Artigo a partir de Tabelas Industriais do Mundo Real

T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

Resumo

Support