ChatPaper.aiChatPaper

ThreadWeaver: Threading Adattivo per un Ragionamento Parallelo Efficiente nei Modelli Linguistici

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

November 24, 2025
Autori: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI

Abstract

Il ridimensionamento del calcolo in fase di inferenza ha consentito ai Large Language Model (LLM) di ottenere prestazioni di ragionamento solide, ma la decodifica intrinsecamente sequenziale comporta una latenza sostanziale, specialmente su compiti complessi. I recenti lavori sul ragionamento parallelo adattivo mirano a migliorare l'efficienza dell'inferenza scomponendo il processo di risoluzione dei problemi in thread di ragionamento concorrenti quando vantaggioso. Tuttavia, i metodi esistenti su compiti realistici sono limitati alla clonazione del comportamento supervisionato o mostrano cali significativi di accuratezza rispetto ai diffusi baseline sequenziali a lunga catena di pensiero (CoT). Inoltre, molti richiedono motori di inferenza personalizzati, complicando la distribuzione. Introduciamo ThreadWeaver, un framework per il ragionamento parallelo adattivo che raggiunge un'accuratezza pari a quella dei popolari modelli di ragionamento sequenziale di dimensioni comparabili, riducendo significativamente la latenza di inferenza. Le prestazioni di ThreadWeaver derivano da tre innovazioni chiave: 1) un generatore di traiettorie parallele a due stadi che produce dati CoT su larga scala e di alta qualità con annotazioni parallele per il fine-tuning supervisionato; 2) una co-progettazione training-inferenza basata su trie che abilita il ragionamento parallelo su qualsiasi motore di inferenza autoregressivo standard senza modificare gli embedding posizionali o le cache KV; e 3) un framework di reinforcement learning consapevole della parallelizzazione che insegna al modello a bilanciare accuratezza e parallelizzazione efficace. Su sei benchmark impegnativi di ragionamento matematico, ThreadWeaver addestrato su Qwen3-8B raggiunge un'accuratezza comparabile ai più avanzati modelli di ragionamento sequenziale (71,9% in media e 79,9% su AIME24) fornendo fino a 1,53x di accelerazione media nella latenza per token, stabilendo una nuova frontiera di Pareto tra accuratezza ed efficienza.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.
PDF172December 11, 2025