ChatPaper.aiChatPaper

ThreadWeaver: Threading Adaptativo para un Razonamiento Paralelo Eficiente en Modelos de Lenguaje

ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models

November 24, 2025
Autores: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI

Resumen

El escalado del cómputo en tiempo de inferencia ha permitido a los Modelos de Lenguaje a Gran Escala (LLM) lograr un sólido rendimiento de razonamiento, pero la decodificación inherentemente secuencial conlleva una latencia sustancial, especialmente en tareas complejas. Trabajos recientes sobre razonamiento paralelo adaptativo buscan mejorar la eficiencia de la inferencia descomponiendo el proceso de resolución de problemas en hilos de razonamiento concurrentes cuando es beneficioso. Sin embargo, los métodos existentes para tareas realistas se limitan a la clonación de comportamiento supervisada o exhiben caídas significativas de precisión en comparación con las líneas de base secuenciales ampliamente utilizadas de cadena de pensamiento (CoT) larga. Además, muchos requieren motores de inferencia personalizados, lo que complica el despliegue. Presentamos ThreadWeaver, un marco para el razonamiento paralelo adaptativo que logra una precisión comparable a la de los modelos de razonamiento secuencial más populares de tamaño similar, reduciendo significativamente la latencia de inferencia. El rendimiento de ThreadWeaver se deriva de tres innovaciones clave: 1) un generador de trayectorias paralelas en dos etapas que produce datos CoT a gran escala y de alta calidad con anotaciones paralelas para el ajuste fino supervisado; 2) un co-diseño entrenamiento-inferencia basado en tries que permite el razonamiento paralelo en cualquier motor de inferencia autorregresivo estándar sin modificar los *embeddings* posicionales o las cachés KV; y 3) un marco de aprendizaje por refuerzo consciente de la paralelización que enseña al modelo a equilibrar la precisión con una paralelización efectiva. En seis benchmarks desafiantes de razonamiento matemático, ThreadWeaver entrenado sobre Qwen3-8B logra una precisión comparable a los modelos de razonamiento secuencial más avanzados (71.9% en promedio y 79.9% en AIME24) mientras ofrece una aceleración promedio de hasta 1.53x en la latencia por token, estableciendo una nueva frontera de Pareto entre precisión y eficiencia.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.
PDF172December 11, 2025