ChatPaper.aiChatPaper

T2S-Bench & Structure-of-Thought : Évaluation comparative et incitation au raisonnement complet texte-vers-structure

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

March 4, 2026
Auteurs: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI

Résumé

Réfléchissez à la manière dont l’être humain traite des tâches de lecture complexes : en marquant les points clés, en inférant leurs relations et en structurant l’information pour guider la compréhension et les réponses. De même, un grand modèle de langage peut-il tirer parti de la structure textuelle pour améliorer ses performances de traitement ? Pour explorer cette question, nous introduisons dans ce travail Structure of Thought (SoT), une technique d’incitation qui guide explicitement les modèles à construire des structures textuelles intermédiaires, améliorant systématiquement les performances sur huit tâches et trois familles de modèles. Sur la base de cette idée, nous présentons T2S-Bench, le premier benchmark conçu pour évaluer et améliorer les capacités de conversion texte-structure des modèles. T2S-Bench comprend 1 800 échantillons couvrant six domaines scientifiques et 32 types de structures, rigoureusement construits pour garantir exactitude, équité et qualité. L’évaluation de 45 modèles grand public révèle un potentiel d’amélioration considérable : la précision moyenne sur la tâche de raisonnement à sauts multiples n’est que de 52,1 %, et même le modèle le plus avancé n’atteint que 58,1 % de précision nodale en extraction bout en bout. Par ailleurs, sur Qwen2.5-7B-Instruct, SoT seule apporte une amélioration moyenne de +5,7 % sur huit tâches de traitement textuel variées, et un affinage sur T2S-Bench porte ce gain à +8,6 %. Ces résultats soulignent l’intérêt d’une structuration explicite du texte ainsi que la complémentarité des apports de SoT et de T2S-Bench. Le jeu de données et le code d’évaluation sont disponibles à l’adresse https://t2s-bench.github.io/T2S-Bench-Page/.
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.
PDF1043March 6, 2026