ThreadWeaver: Threading Adaptativo para Raciocínio Paralelo Eficiente em Modelos de Linguagem
ThreadWeaver: Adaptive Threading for Efficient Parallel Reasoning in Language Models
November 24, 2025
Autores: Long Lian, Sida Wang, Felix Juefei-Xu, Tsu-Jui Fu, Xiuyu Li, Adam Yala, Trevor Darrell, Alane Suhr, Yuandong Tian, Xi Victoria Lin
cs.AI
Resumo
A escalabilidade da computação em tempo de inferência permitiu que os Modelos de Linguagem de Grande Porte (LLMs) atingissem um forte desempenho de raciocínio, mas a decodificação inerentemente sequencial resulta em uma latência substancial, especialmente em tarefas complexas. Trabalhos recentes sobre raciocínio paralelo adaptativo visam melhorar a eficiência da inferência decompondo o processo de resolução de problemas em linhas de raciocínio concorrentes quando benéfico. No entanto, os métodos existentes para tarefas realistas estão limitados à clonagem de comportamento supervisionada ou exibem quedas significativas de precisão em comparação com as linhas de pensamento (CoT) sequenciais longas amplamente utilizadas como baseline. Além disso, muitos requerem motores de inferência personalizados, complicando a implantação. Apresentamos o ThreadWeaver, uma estrutura para raciocínio paralelo adaptativo que atinge uma precisão equivalente aos modelos de raciocínio sequencial populares de tamanho comparável, reduzindo significativamente a latência de inferência. O desempenho do ThreadWeaver decorre de três inovações principais: 1) um gerador de trajetória paralela de dois estágios que produz dados CoT em larga escala e de alta qualidade com anotações paralelas para ajuste fino supervisionado; 2) um co-projeto de treinamento-inferência baseado em trie que permite o raciocínio paralelo em qualquer motor de inferência autoregressivo padrão sem modificar os *embeddings* posicionais ou as caches KV; e 3) uma estrutura de aprendizagem por reforço consciente da paralelização que ensina o modelo a equilibrar a precisão com uma paralelização eficaz. Em seis benchmarks desafiadores de raciocínio matemático, o ThreadWeaver treinado sobre o Qwen3-8B atinge uma precisão comparável aos modelos de raciocínio sequencial de última geração (71,9% em média e 79,9% no AIME24), ao mesmo tempo que proporciona até 1,53x de aceleração média na latência por *token*, estabelecendo uma nova fronteira de Pareto entre precisão e eficiência.
English
Scaling inference-time computation has enabled Large Language Models (LLMs) to achieve strong reasoning performance, but inherently sequential decoding leads to substantial latency, especially on complex tasks. Recent work on adaptive parallel reasoning aims to improve inference efficiency by decomposing the problem-solving process into concurrent reasoning threads when beneficial. However, existing methods on realistic tasks are either limited to supervised behavior cloning or exhibit significant accuracy drops compared to widely-used sequential long chain-of-thought (CoT) baselines. Moreover, many require customized inference engines, complicating deployment. We introduce ThreadWeaver, a framework for adaptive parallel reasoning that achieves accuracy on par with popular sequential reasoning models of comparable size while significantly reducing inference latency. ThreadWeaver's performance stems from three key innovations: 1) a two-stage parallel trajectory generator that produces large-scale, high-quality CoT data with parallel annotations for supervised fine-tuning; 2) a trie-based training-inference co-design that enables parallel reasoning on any off-the-shelf autoregressive inference engine without modifying position embeddings or KV caches; and 3) a parallelization-aware reinforcement learning framework that teaches the model to balance accuracy with effective parallelization. Across six challenging mathematical reasoning benchmarks, ThreadWeaver trained atop Qwen3-8B achieves accuracy comparable to cutting-edge sequential reasoning models (71.9% on average and 79.9% on AIME24) while delivering up to 1.53x average speedup in token latency, establishing a new Pareto frontier between accuracy and efficiency.