T2R-bench: Een benchmark voor het genereren van artikelrapporten op basis van realistische industriële tabellen
T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables
August 27, 2025
Auteurs: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI
Samenvatting
Er is uitgebreid onderzoek gedaan naar de mogelijkheden van grote taalmodellen (LLMs) op het gebied van tabelredenering. Echter blijft de essentiële taak van het omzetten van tabelinformatie naar rapporten een aanzienlijke uitdaging voor industriële toepassingen. Deze taak wordt geplaagd door twee kritieke problemen: 1) de complexiteit en diversiteit van tabellen leiden tot suboptimale redeneerresultaten; en 2) bestaande tabelbenchmarks zijn niet in staat om de praktische toepassing van deze taak adequaat te beoordelen. Om dit gat te vullen, stellen we de tabel-naar-rapport-taak voor en construeren we een tweetalige benchmark genaamd T2R-bench, waarin de sleutelinformatie van de tabellen naar de rapporten voor deze taak wordt doorgegeven. De benchmark bestaat uit 457 industriële tabellen, allemaal afkomstig uit realistische scenario's en omvat 19 industriedomeinen evenals 4 soorten industriële tabellen. Bovendien stellen we een evaluatiecriteria voor om de kwaliteit van rapportgeneratie eerlijk te meten. De experimenten met 25 veelgebruikte LLMs onthullen dat zelfs state-of-the-art modellen zoals Deepseek-R1 slechts een prestatie behalen met een overall score van 62,71, wat aangeeft dat LLMs nog ruimte voor verbetering hebben op T2R-bench. Broncode en data zullen beschikbaar worden gesteld na acceptatie.
English
Extensive research has been conducted to explore the capabilities of large
language models (LLMs) in table reasoning. However, the essential task of
transforming tables information into reports remains a significant challenge
for industrial applications. This task is plagued by two critical issues: 1)
the complexity and diversity of tables lead to suboptimal reasoning outcomes;
and 2) existing table benchmarks lack the capacity to adequately assess the
practical application of this task. To fill this gap, we propose the
table-to-report task and construct a bilingual benchmark named T2R-bench, where
the key information flow from the tables to the reports for this task. The
benchmark comprises 457 industrial tables, all derived from real-world
scenarios and encompassing 19 industry domains as well as 4 types of industrial
tables. Furthermore, we propose an evaluation criteria to fairly measure the
quality of report generation. The experiments on 25 widely-used LLMs reveal
that even state-of-the-art models like Deepseek-R1 only achieves performance
with 62.71 overall score, indicating that LLMs still have room for improvement
on T2R-bench. Source code and data will be available after acceptance.