ThreadWeaver: Adaptieve Threading voor Efficiënte Parallelle Redenering in Taalmodellen

Samenvatting

Het opschalen van rekencapaciteit tijdens inferentie heeft grote taalmodellen (LLM's) in staat gesteld sterke redeneerprestaties te behalen, maar inherent sequentiële decodering leidt tot aanzienlijke latentie, vooral bij complexe taken. Recent werk rond adaptief parallel redeneren beoogt de inferentie-efficiëntie te verbeteren door het probleemoplossingsproces, waar nuttig, op te splitsen in gelijktijdige redeneerdraden. Bestaande methoden voor realistische taken zijn echter ofwel beperkt tot supervised gedragsklonering, of vertonen een significante daling in nauwkeurigheid vergeleken met veelgebruikte sequentiële long chain-of-thought (CoT)-baselines. Bovendien vereisen veel ervan aangepaste inferentie-engines, wat implementatie bemoeilijkt. Wij introduceren ThreadWeaver, een raamwerk voor adaptief parallel redeneren dat een nauwkeurigheid bereikt die vergelijkbaar is met populaire sequentiële redeneermodellen van vergelijkbare grootte, terwijl de inferentie-latentie aanzienlijk wordt verminderd. De prestaties van ThreadWeaver zijn het gevolg van drie belangrijke innovaties: 1) een parallelle trajectgenerator in twee fasen die grootschalige, hoogwaardige CoT-gegevens met parallelle annotaties produceert voor supervised fine-tuning; 2) een op tries gebaseerd co-design voor training en inferentie dat parallel redeneren mogelijk maakt op elke kant-en-klare autoregressieve inferentie-engine zonder aanpassing van positionele inbeddingen of KV-caches; en 3) een parallelisatiebewust reinforcement learning-raamwerk dat het model leert om nauwkeurigheid te balanceren met effectieve parallelisatie. Op zes uitdagende wiskundige redeneerbenchmarks behaalt ThreadWeaver, getraind op Qwen3-8B, een nauwkeurigheid vergelijkbaar met geavanceerde sequentiële redeneermodellen (gemiddeld 71,9% en 79,9% op AIME24), terwijl het een gemiddelde versnelling in tokenlatentie tot 1,53x bereikt, waarmee een nieuwe Pareto-grens tussen nauwkeurigheid en efficiëntie wordt gevestigd.

English

Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.

ThreadWeaver: Adaptieve Threading voor Efficiënte Parallelle Redenering in Taalmodellen

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

Samenvatting

Support