T2S-벤치 및 구조적 사고: 포괄적인 텍스트-구조 추론의 벤치마킹 및 프롬프팅
T2S-Bench & Structure-of-Thought: Benchmarking and Prompting Comprehensive Text-to-Structure Reasoning
March 4, 2026
저자: Qinsi Wang, Hancheng Ye, Jinhee Kim, Jinghan Ke, Yifei Wang, Martin Kuo, Zishan Shao, Dongting Li, Yueqian Lin, Ting Jiang, Chiyue Wei, Qi Qian, Wei Wen, Helen Li, Yiran Chen
cs.AI
초록
인간이 복잡한 읽기 과제를 어떻게 처리하는지 생각해보자: 핵심 포인트를 표시하고, 그들 간의 관계를 추론하며, 이해와 응답을 안내하기 위해 정보를 구조화한다. 마찬가지로, 대규모 언어 모델도 텍스트 처리 성능을 향상시키기 위해 텍스트 구조로부터 이점을 얻을 수 있을까? 이를 탐구하기 위해, 본 연구에서는 먼저 '사고 구조(Structure of Thought, SoT)'를 소개한다. 이는 모델이 중간 텍스트 구조를 구축하도록 명시적으로 안내하는 프롬프팅 기법으로, 8가지 과제와 3가지 모델 패밀리 전반에 걸쳐 성능을 지속적으로 향상시켰다. 이러한 통찰을 바탕으로, 모델의 텍스트-구조 변환 능력을 평가하고 개선하기 위해 설계된 최초의 벤치마크인 T2S-Bench를 제시한다. T2S-Bench는 6개의 과학 분야와 32가지 구조 유형에 걸친 1,800개의 샘플을 포함하며, 정확성, 공정성, 질을 보장하기 위해 엄격하게 구축되었다. 45개의 주류 모델에 대한 평가 결과 상당한 개선 잠재력이 드러났다: 다중 홉 추론 과제의 평균 정확도는 52.1%에 불과했으며, 심지어 가장 진보된 모델도 종단간 추출에서 노드 정확도 58.1%에 그쳤다. 더 나아가, Qwen2.5-7B-Instruct 모델에서 SoT 단독으로 8가지 다양한 텍스트 처리 과제 전반에 걸쳐 평균 +5.7%의 성능 향상을 가져왔으며, T2S-Bench로 미세 조정을 수행하면 이 이득이 +8.6%로 더욱 증가했다. 이러한 결과는 명시적 텍스트 구조화의 가치와 SoT와 T2S-Bench의 상호 보완적 기여를 강조한다. 데이터셋과 평가 코드는 https://t2s-bench.github.io/T2S-Bench-Page/에서 공개되었다.
English
Think about how human handles complex reading tasks: marking key points, inferring their relationships, and structuring information to guide understanding and responses. Likewise, can a large language model benefit from text structure to enhance text-processing performance? To explore it, in this work, we first introduce Structure of Thought (SoT), a prompting technique that explicitly guides models to construct intermediate text structures, consistently boosting performance across eight tasks and three model families. Building upon this insight, we present T2S-Bench, the first benchmark designed to evaluate and improve text-to-structure capabilities of models. T2S-Bench includes 1.8K samples across 6 scientific domains and 32 structural types, rigorously constructed to ensure accuracy, fairness, and quality. Evaluation on 45 mainstream models reveals substantial improvement potential: the average accuracy on the multi-hop reasoning task is only 52.1%, and even the most advanced model achieves 58.1% node accuracy in end-to-end extraction. Furthermore, on Qwen2.5-7B-Instruct, SoT alone yields an average +5.7% improvement across eight diverse text-processing tasks, and fine-tuning on T2S-Bench further increases this gain to +8.6%. These results highlight the value of explicit text structuring and the complementary contributions of SoT and T2S-Bench. Dataset and eval code have been released at https://t2s-bench.github.io/T2S-Bench-Page/.