T2S-Bench & Structure-of-Thought: Benchmarking und Prompting umfassender Text-zu-Struktur-Abgleiche

Zusammenfassung

Überlegen Sie, wie Menschen komplexe Leseaufgaben bewältigen: Sie markieren Schlüsselstellen, leiten deren Beziehungen ab und strukturieren Informationen, um das Verständnis und die Antwortfindung zu steuern. Kann ein großes Sprachmodell in ähnlicher Weise von der Textstruktur profitieren, um seine Textverarbeitungsleistung zu verbessern? Um dies zu untersuchen, führen wir in dieser Arbeit zunächst die "Structure of Thought" (SoT) ein, eine Prompting-Technik, die Modelle explizit dazu anleitet, Zwischentextstrukturen zu konstruieren und so durchgängig die Leistung in acht Aufgaben und drei Modellfamilien steigert. Aufbauend auf dieser Erkenntnis präsentieren wir T2S-Bench, den ersten Benchmark, der entwickelt wurde, um die Text-zu-Struktur-Fähigkeiten von Modellen zu bewerten und zu verbessern. T2S-Bench umfasst 1.800 Beispiele aus sechs wissenschaftlichen Domänen und 32 Strukturtypen, die rigoros konstruiert wurden, um Genauigkeit, Fairness und Qualität zu gewährleisten. Die Evaluation von 45 Mainstream-Modellen zeigt ein erhebliches Verbesserungspotenzial auf: Die durchschnittliche Genauigkeit bei der Multi-Hop Reasoning-Aufgabe beträgt nur 52,1 %, und selbst das fortschrittlichste Modell erreicht eine Knotengenauigkeit von 58,1 % bei der Ende-zu-Ende-Extraktion. Darüber hinaus führt SoT allein bei Qwen2.5-7B-Instruct zu einer durchschnittlichen Verbesserung von +5,7 % über acht verschiedene Textverarbeitungsaufgaben hinweg, und ein Fine-Tuning auf T2S-Bench steigert diesen Gewinn weiter auf +8,6 %. Diese Ergebnisse unterstreichen den Wert expliziter Textstrukturierung sowie die komplementären Beiträge von SoT und T2S-Bench. Der Datensatz und der Evaluationscode sind unter https://t2s-bench.github.io/T2S-Bench-Page/ veröffentlicht.

English

Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.

T2S-Bench & Structure-of-Thought: Benchmarking und Prompting umfassender Text-zu-Struktur-Abgleiche

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Zusammenfassung

Support