ChatPaper.aiChatPaper

T2R-bench: Бенчмарк для генерации отчетов на уровне статей на основе реальных промышленных таблиц

T2R-bench: A Benchmark for Generating Article-Level Reports from Real World Industrial Tables

August 27, 2025
Авторы: Jie Zhang, Changzai Pan, Kaiwen Wei, Sishi Xiong, Yu Zhao, Xiangyu Li, Jiaxin Peng, Xiaoyan Gu, Jian Yang, Wenhan Chang, Zhenhe Wu, Jiang Zhong, Shuangyong Song, Yongxiang Li, Xuelong Li
cs.AI

Аннотация

Обширные исследования были проведены для изучения возможностей больших языковых моделей (LLM) в области анализа таблиц. Однако ключевая задача преобразования информации из таблиц в отчеты остается значительным вызовом для промышленных приложений. Эта задача осложняется двумя критическими проблемами: 1) сложность и разнообразие таблиц приводят к неоптимальным результатам анализа; и 2) существующие тестовые наборы данных для таблиц не способны адекватно оценить практическое применение этой задачи. Чтобы заполнить этот пробел, мы предлагаем задачу "таблица-в-отчет" и создаем двуязычный тестовый набор данных под названием T2R-bench, где ключевой информационный поток направлен от таблиц к отчетам. Этот набор данных включает 457 промышленных таблиц, все из которых взяты из реальных сценариев и охватывают 19 отраслей, а также 4 типа промышленных таблиц. Кроме того, мы предлагаем критерии оценки для справедливого измерения качества генерации отчетов. Эксперименты с 25 широко используемыми LLM показывают, что даже передовые модели, такие как Deepseek-R1, достигают лишь 62.71 балла в общем счете, что указывает на то, что LLM все еще имеют потенциал для улучшения на T2R-bench. Исходный код и данные будут доступны после принятия работы.
English
Extensive research has been conducted to explore the capabilities of large language models (LLMs) in table reasoning. However, the essential task of transforming tables information into reports remains a significant challenge for industrial applications. This task is plagued by two critical issues: 1) the complexity and diversity of tables lead to suboptimal reasoning outcomes; and 2) existing table benchmarks lack the capacity to adequately assess the practical application of this task. To fill this gap, we propose the table-to-report task and construct a bilingual benchmark named T2R-bench, where the key information flow from the tables to the reports for this task. The benchmark comprises 457 industrial tables, all derived from real-world scenarios and encompassing 19 industry domains as well as 4 types of industrial tables. Furthermore, we propose an evaluation criteria to fairly measure the quality of report generation. The experiments on 25 widely-used LLMs reveal that even state-of-the-art models like Deepseek-R1 only achieves performance with 62.71 overall score, indicating that LLMs still have room for improvement on T2R-bench. Source code and data will be available after acceptance.
PDF202September 2, 2025