ChatPaper.aiChatPaper

ThreadWeaver: 언어 모델의 효율적 병렬 추론을 위한 적응형 스레딩

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

November 24, 2025
저자: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI

초록

추론 시점 연산 확장은 대규모 언어 모델(LLM)이 강력한 추론 성능을 달성할 수 있게 했지만, 본질적으로 순차적인 디코딩 방식은 특히 복잡한 작업에서 상당한 지연 시간을 초래합니다. 최근 등장한 적응형 병렬 추론 연구는 문제 해결 과정을 필요에 따라 동시 실행되는 추론 스레드로 분해하여 추론 효율을 향상시키고자 합니다. 그러나 현실적인 작업에서 기존 방법들은 지도 학습 방식의 행동 복제에 국한되거나, 널리 사용되는 순차적 장문 사고 연쇄(CoT) 기준선 대비 정확도가 크게 떨어지는 한계가 있습니다. 또한 많은 방법들이 맞춤형 추론 엔진을 필요로 하여 배포가 복잡해집니다. 본 논문은 적응형 병렬 추론 프레임워크인 ThreadWeaver를 소개합니다. ThreadWeaver는 비교 가능한 크기의 인기 순차 추론 모델들과 동등한 정확도를 유지하면서 추론 지연 시간을 크게 단축합니다. ThreadWeaver의 성능은 세 가지 핵심 혁신에서 비롯됩니다: 1) 지도 미세 조정을 위한 병렬 주석이 포함된 대규모 고품질 CoT 데이터를 생성하는 2단계 병렬 궤적 생성기, 2) 위치 임베딩이나 KV 캐시 수정 없이 기존의 모든 자기회귀 추론 엔진에서 병렬 추론을 가능하게 하는 트라이 기반의 학습-추론 공동 설계, 3) 모델이 정확도와 효과적인 병렬화 사이의 균형을 잡도록 가르치는 병렬화 인식 강화 학습 프레임워크. 6개의 도전적인 수학적 추론 벤치마크에서 Qwen3-8B 기반으로 학습된 ThreadWeaver는 최첨단 순차 추론 모델들과 비견되는 정확도(평균 71.9%, AIME24에서 79.9%)를 달성하면서 토큰 지연 시간 기준 최대 1.53배의 평균 속도 향상을 제공하여 정확도와 효율성 사이의 새로운 파레토 최적점을 수립했습니다.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.
PDF172December 11, 2025