T2S-Bench & Structure-of-Thought: 包括的なテキストから構造への推論のベンチマークとプロンプティング
T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
March 4, 2026
著者: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI
要旨
人間が複雑な読解課題をどのように処理するか考えてみましょう。重要なポイントに印を付け、それらの関係を推論し、理解と応答を導くために情報を構造化します。同様に、大規模言語モデルもテキスト構造を活用することで、テキスト処理性能を向上させることができるでしょうか?この問いを探るため、本論文ではまず、思考構造(Structure of Thought: SoT)というプロンプト技術を提案します。これはモデルが中間的なテキスト構造を構築することを明示的に誘導し、8つのタスクと3つのモデルファミリーにわたって性能を一貫して向上させました。この知見を発展させ、モデルのテキストから構造への変換能力を評価・改善するための最初のベンチマークであるT2S-Benchを紹介します。T2S-Benchは、6つの科学分野と32の構造タイプにわたる1,800サンプルを含み、正確性、公平性、品質を保証するよう厳密に構築されています。45の主流モデルによる評価では、大幅な改善の余地が明らかになりました。マルチホップ推論タスクにおける平均精度はわずか52.1%であり、エンドツーエンド抽出においても最先端モデルでさえノード精度は58.1%に留まります。さらに、Qwen2.5-7B-Instructでは、SoTを適用するだけで8つの多様なテキスト処理タスクにおいて平均+5.7%の改善が得られ、T2S-Benchでのファインチューニングによりこの改善幅は+8.6%まで拡大しました。これらの結果は、明示的なテキスト構造化の価値と、SoTとT2S-Benchの相補的な貢献を浮き彫りにしています。データセットと評価コードは https://t2s-bench.github.io/T2S-Bench-Page/ で公開されています。
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.