T2S-Bench & Structure-of-Thought: Het benchmarken en aansturen van uitgebreide tekst-naar-structuurredenering

Samenvatting

Bedenk hoe mensen complexe leestaken aanpakken: sleutelpunten markeren, hun onderlinge relaties afleiden en informatie structureren om het begrip en de reacties te sturen. Kunnen grote taalmodellen eveneens baat hebben bij tekststructuur om hun tekstverwerkingsprestaties te verbeteren? Om dit te onderzoeken, introduceren we in dit werk eerst 'Structure of Thought' (SoT), een prompttechniek die modellen expliciet begeleidt bij het opbouwen van tussenliggende tekststructuren, wat consequent de prestaties verbetert bij acht taken en drie modelfamilies. Voortbordurend op dit inzicht presenteren we T2S-Bench, de eerste benchmark die is ontworpen om de tekst-naar-structuur capaciteiten van modellen te evalueren en te verbeteren. T2S-Bench omvat 1.800 voorbeelden verspreid over 6 wetenschappelijke domeinen en 32 structurele typen, rigoureus opgebouwd om nauwkeurigheid, eerlijkheid en kwaliteit te waarborgen. Evaluatie van 45 gangbare modellen toont een aanzienlijk verbeterpotentieel: de gemiddelde nauwkeurigheid voor de multi-hop redeneertaak is slechts 52,1%, en zelfs het meest geavanceerde model behaalt slechts 58,1% knooppuntnauwkeurigheid bij end-to-end extractie. Bovendien levert SoT alleen al op Qwen2.5-7B-Instruct een gemiddelde verbetering van +5,7% op over acht uiteenlopende tekstverwerkingstaken, en fine-tuning op T2S-Bench verhoogt deze winst verder tot +8,6%. Deze resultaten onderstrepen de waarde van expliciete tekststructurering en de complementaire bijdragen van SoT en T2S-Bench. De dataset en evaluatiecode zijn vrijgegeven op https://t2s-bench.github.io/T2S-Bench-Page/.

English

Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.

T2S-Bench & Structure-of-Thought: Het benchmarken en aansturen van uitgebreide tekst-naar-structuurredenering

T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning

Samenvatting

Support