Aprendizado de Raciocínio Paralelo Adaptativo com Modelos de Linguagem
Learning Adaptive Parallel Reasoning with Language Models
April 21, 2025
Autores: Jiayi Pan, Xiuyu Li, Long Lian, Charlie Snell, Yifei Zhou, Adam Yala, Trevor Darrell, Kurt Keutzer, Alane Suhr
cs.AI
Resumo
A escalabilidade da computação durante a inferência melhorou substancialmente as capacidades de raciocínio dos modelos de linguagem. No entanto, os métodos existentes apresentam limitações significativas: abordagens serializadas de cadeia de pensamento geram saídas excessivamente longas, levando a maior latência e ao esgotamento das janelas de contexto, enquanto métodos paralelos, como a autoconsistência, sofrem com coordenação insuficiente, resultando em computações redundantes e ganhos de desempenho limitados. Para superar essas deficiências, propomos o Raciocínio Paralelo Adaptativo (APR), uma nova estrutura de raciocínio que permite aos modelos de linguagem orquestrar computações serializadas e paralelas de ponta a ponta. O APR generaliza métodos de raciocínio existentes ao permitir inferência multi-thread adaptativa usando operações de spawn() e join(). Uma inovação fundamental é nossa estratégia de aprendizado por reforço de ponta a ponta, que otimiza tanto os threads de inferência principais quanto os secundários para aumentar a taxa de sucesso da tarefa sem exigir estruturas de raciocínio predefinidas. Experimentos na tarefa de raciocínio Countdown demonstram benefícios significativos do APR: (1) maior desempenho dentro da mesma janela de contexto (83,4% vs. 60,0% em 4k de contexto); (2) escalabilidade superior com aumento da computação (80,1% vs. 66,6% em 20k tokens totais); (3) precisão aprimorada com latência equivalente (75,2% vs. 57,3% em aproximadamente 5.000ms). O APR representa um passo em direção à capacidade dos modelos de linguagem de otimizar autonomamente seus processos de raciocínio por meio da alocação adaptativa de computação.
English
Scaling inference-time computation has substantially improved the reasoning
capabilities of language models. However, existing methods have significant
limitations: serialized chain-of-thought approaches generate overly long
outputs, leading to increased latency and exhausted context windows, while
parallel methods such as self-consistency suffer from insufficient
coordination, resulting in redundant computations and limited performance
gains. To address these shortcomings, we propose Adaptive Parallel Reasoning
(APR), a novel reasoning framework that enables language models to orchestrate
both serialized and parallel computations end-to-end. APR generalizes existing
reasoning methods by enabling adaptive multi-threaded inference using spawn()
and join() operations. A key innovation is our end-to-end reinforcement
learning strategy, optimizing both parent and child inference threads to
enhance task success rate without requiring predefined reasoning structures.
Experiments on the Countdown reasoning task demonstrate significant benefits of
APR: (1) higher performance within the same context window (83.4% vs. 60.0% at
4k context); (2) superior scalability with increased computation (80.1% vs.
66.6% at 20k total tokens); (3) improved accuracy at equivalent latency (75.2%
vs. 57.3% at approximately 5,000ms). APR represents a step towards enabling
language models to autonomously optimize their reasoning processes through
adaptive allocation of computation.