ChatPaper.aiChatPaper

T2S-Bench e Estrutura do Pensamento: Avaliação e Prompting do Raciocínio Abrangente de Texto para Estrutura

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

March 4, 2026
Autores: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI

Resumo

Pense em como os seres humanos lidam com tarefas complexas de leitura: marcar pontos-chave, inferir suas relações e estruturar informações para orientar a compreensão e as respostas. Da mesma forma, um modelo de linguagem grande pode beneficiar-se da estrutura do texto para melhorar o desempenho no processamento textual? Para explorar isso, neste trabalho, primeiro apresentamos a Estrutura do Pensamento (Structure of Thought - SoT), uma técnica de *prompting* que orienta explicitamente os modelos a construir estruturas textuais intermediárias, aumentando consistentemente o desempenho em oito tarefas e três famílias de modelos. Com base nessa percepção, apresentamos o T2S-Bench, o primeiro *benchmark* projetado para avaliar e melhorar as capacidades texto-para-estrutura dos modelos. O T2S-Bench inclui 1,8 mil amostras em 6 domínios científicos e 32 tipos estruturais, rigorosamente construídas para garantir precisão, justiça e qualidade. A avaliação em 45 modelos principais revela um potencial de melhoria substancial: a precisão média na tarefa de raciocínio multietapa é de apenas 52,1%, e mesmo o modelo mais avançado atinge 58,1% de precisão de nó na extração *end-to-end*. Além disso, no Qwen2.5-7B-Instruct, apenas a SoT proporciona uma melhoria média de +5,7% em oito tarefas diversificadas de processamento de texto, e o *fine-tuning* no T2S-Bench aumenta ainda mais esse ganho para +8,6%. Esses resultados destacam o valor da estruturação explícita do texto e as contribuições complementares da SoT e do T2S-Bench. O conjunto de dados e o código de avaliação foram disponibilizados em https://t2s-bench.github.io/T2S-Bench-Page/.
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.
PDF1144March 17, 2026