T2S-Bench e Estrutura do Pensamento: Avaliação e Prompting do Raciocínio Abrangente de Texto para Estrutura

Resumo

Pense em como os seres humanos lidam com tarefas complexas de leitura: marcar pontos-chave, inferir suas relações e estruturar informações para orientar a compreensão e as respostas. Da mesma forma, um modelo de linguagem grande pode beneficiar-se da estrutura do texto para melhorar o desempenho no processamento textual? Para explorar isso, neste trabalho, primeiro apresentamos a Estrutura do Pensamento (Structure of Thought - SoT), uma técnica de *prompting* que orienta explicitamente os modelos a construir estruturas textuais intermediárias, aumentando consistentemente o desempenho em oito tarefas e três famílias de modelos. Com base nessa percepção, apresentamos o T2S-Bench, o primeiro *benchmark* projetado para avaliar e melhorar as capacidades texto-para-estrutura dos modelos. O T2S-Bench inclui 1,8 mil amostras em 6 domínios científicos e 32 tipos estruturais, rigorosamente construídas para garantir precisão, justiça e qualidade. A avaliação em 45 modelos principais revela um potencial de melhoria substancial: a precisão média na tarefa de raciocínio multietapa é de apenas 52,1%, e mesmo o modelo mais avançado atinge 58,1% de precisão de nó na extração *end-to-end*. Além disso, no Qwen2.5-7B-Instruct, apenas a SoT proporciona uma melhoria média de +5,7% em oito tarefas diversificadas de processamento de texto, e o *fine-tuning* no T2S-Bench aumenta ainda mais esse ganho para +8,6%. Esses resultados destacam o valor da estruturação explícita do texto e as contribuições complementares da SoT e do T2S-Bench. O conjunto de dados e o código de avaliação foram disponibilizados em https://t2s-bench.github.io/T2S-Bench-Page/.

English

Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.

T2S-Bench e Estrutura do Pensamento: Avaliação e Prompting do Raciocínio Abrangente de Texto para Estrutura

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Resumo

Support