T2S-Bench y Structure-of-Thought: Evaluación y Estimulación del Razonamiento Integral de Texto a Estructura
T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
March 4, 2026
Autores: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI
Resumen
Pensemos en cómo los humanos abordamos tareas de lectura complejas: marcando puntos clave, infiriendo sus relaciones y estructurando la información para guiar la comprensión y las respuestas. Del mismo modo, ¿puede un modelo de lenguaje grande beneficiarse de la estructura del texto para mejorar su rendimiento en el procesamiento textual? Para explorarlo, en este trabajo primero presentamos Structure of Thought (SoT), una técnica de prompting que guía explícitamente a los modelos para construir estructuras textuales intermedias, mejorando consistentemente el rendimiento en ocho tareas y tres familias de modelos. Partiendo de esta idea, presentamos T2S-Bench, el primer benchmark diseñado para evaluar y mejorar las capacidades de conversión de texto a estructura de los modelos. T2S-Bench incluye 1.800 muestras en 6 dominios científicos y 32 tipos estructurales, construidas rigurosamente para garantizar precisión, equidad y calidad. La evaluación de 45 modelos principales revela un potencial de mejora sustancial: la precisión promedio en la tarea de razonamiento multi-etapa es de solo 52.1%, e incluso el modelo más avanzado alcanza 58.1% de precisión en nodos en la extracción extremo a extremo. Además, en Qwen2.5-7B-Instruct, SoT por sí solo produce una mejora promedio de +5.7% en ocho tareas diversas de procesamiento textual, y el fine-tuning en T2S-Bench incrementa esta ganancia a +8.6%. Estos resultados destacan el valor de la estructuración explícita del texto y las contribuciones complementarias de SoT y T2S-Bench. El conjunto de datos y el código de evaluación han sido publicados en https://t2s-bench.github.io/T2S-Bench-Page/.
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.