T2S-Bench & Structure-of-Thought: Тестирование и промптинг комплексного рассуждения «текст-структура»

Аннотация

Задумаемся о том, как человек справляется со сложными задачами чтения: отмечает ключевые моменты, выявляет взаимосвязи между ними и структурирует информацию для лучшего понимания и формулирования ответов. Возникает вопрос: может ли большая языковая модель извлечь пользу из текстовой структуры для повышения эффективности обработки текста? Чтобы исследовать это, в данной работе мы сначала представляем Structure of Thought (SoT) — метод промптинга, который явно направляет модели на построение промежуточных текстовых структур, что стабильно повышает производительность в восьми задачах и для трех семейств моделей. Опираясь на это наблюдение, мы представляем T2S-Bench — первый бенчмарк, разработанный для оценки и улучшения способностей моделей преобразовывать текст в структуру. T2S-Bench включает 1,8 тыс. примеров из шести научных областей и 32 структурных типа, тщательно созданных для обеспечения точности, объективности и качества. Оценка 45 популярных моделей выявила значительный потенциал для улучшения: средняя точность в задаче многошагового рассуждения составляет лишь 52,1%, а даже самая передовая модель достигает точности извлечения узлов 58,1% в сквозной задаче. Более того, для модели Qwen2.5-7B-Instruct использование только SoT дает среднее улучшение на +5,7% в восьми разнообразных задачах обработки текста, а дообучение на T2S-Bench увеличивает этот прирост до +8,6%. Эти результаты подчеркивают ценность явного структурирования текста и взаимодополняющий вклад SoT и T2S-Bench. Набор данных и код для оценки опубликованы по адресу: https://t2s-bench.github.io/T2S-Bench-Page/.

English

Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.

T2S-Bench & Structure-of-Thought: Тестирование и промптинг комплексного рассуждения «текст-структура»

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Аннотация

Support