ChatPaper.aiChatPaper

T2S-Bench & Structure-of-Thought: Тестирование и промптинг комплексного рассуждения «текст-структура»

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

March 4, 2026
Авторы: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI

Аннотация

Задумаемся о том, как человек справляется со сложными задачами чтения: отмечает ключевые моменты, выявляет взаимосвязи между ними и структурирует информацию для лучшего понимания и формулирования ответов. Возникает вопрос: может ли большая языковая модель извлечь пользу из текстовой структуры для повышения эффективности обработки текста? Чтобы исследовать это, в данной работе мы сначала представляем Structure of Thought (SoT) — метод промптинга, который явно направляет модели на построение промежуточных текстовых структур, что стабильно повышает производительность в восьми задачах и для трех семейств моделей. Опираясь на это наблюдение, мы представляем T2S-Bench — первый бенчмарк, разработанный для оценки и улучшения способностей моделей преобразовывать текст в структуру. T2S-Bench включает 1,8 тыс. примеров из шести научных областей и 32 структурных типа, тщательно созданных для обеспечения точности, объективности и качества. Оценка 45 популярных моделей выявила значительный потенциал для улучшения: средняя точность в задаче многошагового рассуждения составляет лишь 52,1%, а даже самая передовая модель достигает точности извлечения узлов 58,1% в сквозной задаче. Более того, для модели Qwen2.5-7B-Instruct использование только SoT дает среднее улучшение на +5,7% в восьми разнообразных задачах обработки текста, а дообучение на T2S-Bench увеличивает этот прирост до +8,6%. Эти результаты подчеркивают ценность явного структурирования текста и взаимодополняющий вклад SoT и T2S-Bench. Набор данных и код для оценки опубликованы по адресу: https://t2s-bench.github.io/T2S-Bench-Page/.
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.
PDF1043March 6, 2026