ThreadWeaver : Enfilage Adaptatif pour un Raisonnement Parallèle Efficace dans les Modèles de Langage
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
November 24, 2025
papers.authors: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI
papers.abstract
L'augmentation de la capacité de calcul lors de l'inférence a permis aux grands modèles de langage (LLM) d'atteindre de solides performances en raisonnement, mais le décodage intrinsèquement séquentiel entraîne une latence substantielle, en particulier sur les tâches complexes. Les travaux récents sur le raisonnement parallèle adaptatif visent à améliorer l'efficacité de l'inférence en décomposant le processus de résolution de problèmes en fils de raisonnement concurrents lorsque cela est bénéfique. Cependant, les méthodes existantes sur des tâches réalistes se limitent soit à un clonage comportemental supervisé, soit présentent des baisses de précision significatives par rapport aux lignes de base séquentielles populaires utilisant de longues chaînes de pensée (CoT). De plus, beaucoup nécessitent des moteurs d'inférence personnalisés, ce qui complique le déploiement. Nous présentons ThreadWeaver, un cadre pour le raisonnement parallèle adaptatif qui atteint une précision équivalente aux modèles de raisonnement séquentiel populaires de taille comparable, tout en réduisant significativement la latence d'inférence. La performance de ThreadWeaver découle de trois innovations clés : 1) un générateur de trajectoires parallèles en deux étapes qui produit des données CoT à grande échelle et de haute qualité avec des annotations parallèles pour le réglage fin supervisé ; 2) une co-conception entraînement-inférence basée sur un trie qui permet un raisonnement parallèle sur n'importe quel moteur d'inférence autorégressif standard sans modifier les embeddings positionnels ou les caches KV ; et 3) un cadre d'apprentissage par renforcement conscient du parallélisme qui enseigne au modèle à équilibrer la précision avec une parallélisation efficace. Sur six benchmarks de raisonnement mathématique exigeants, ThreadWeaver entraîné sur Qwen3-8B atteint une précision comparable aux modèles de raisonnement séquentiel de pointe (71,9 % en moyenne et 79,9 % sur AIME24) tout en offrant jusqu'à 1,53x d'accélération moyenne de la latence par token, établissant une nouvelle frontière de Pareto entre précision et efficacité.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.