T2S-Bench & Structure-of-Thought : Évaluation comparative et incitation au raisonnement complet texte-vers-structure

Résumé

Réfléchissez à la manière dont l’être humain traite des tâches de lecture complexes : en marquant les points clés, en inférant leurs relations et en structurant l’information pour guider la compréhension et les réponses. De même, un grand modèle de langage peut-il tirer parti de la structure textuelle pour améliorer ses performances de traitement ? Pour explorer cette question, nous introduisons dans ce travail Structure of Thought (SoT), une technique d’incitation qui guide explicitement les modèles à construire des structures textuelles intermédiaires, améliorant systématiquement les performances sur huit tâches et trois familles de modèles. Sur la base de cette idée, nous présentons T2S-Bench, le premier benchmark conçu pour évaluer et améliorer les capacités de conversion texte-structure des modèles. T2S-Bench comprend 1 800 échantillons couvrant six domaines scientifiques et 32 types de structures, rigoureusement construits pour garantir exactitude, équité et qualité. L’évaluation de 45 modèles grand public révèle un potentiel d’amélioration considérable : la précision moyenne sur la tâche de raisonnement à sauts multiples n’est que de 52,1 %, et même le modèle le plus avancé n’atteint que 58,1 % de précision nodale en extraction bout en bout. Par ailleurs, sur Qwen2.5-7B-Instruct, SoT seule apporte une amélioration moyenne de +5,7 % sur huit tâches de traitement textuel variées, et un affinage sur T2S-Bench porte ce gain à +8,6 %. Ces résultats soulignent l’intérêt d’une structuration explicite du texte ainsi que la complémentarité des apports de SoT et de T2S-Bench. Le jeu de données et le code d’évaluation sont disponibles à l’adresse https://t2s-bench.github.io/T2S-Bench-Page/.

English

Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.

T2S-Bench & Structure-of-Thought : Évaluation comparative et incitation au raisonnement complet texte-vers-structure

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Résumé

Support