O Treino de LLMs para Raciocínio de Dividir e Conquistar Eleva a Escalabilidade em Tempo de Teste

Resumo

Os grandes modelos de linguagem (LLMs) demonstraram fortes capacidades de raciocínio através da abordagem sequencial de raciocínio em cadeia de pensamento (CoT). No entanto, nos limites da capacidade do modelo, o CoT frequentemente se mostra insuficiente, e sua natureza estritamente sequencial restringe a escalabilidade em tempo de teste. Uma alternativa potencial é o raciocínio de divisão e conquista (DAC), que decompõe um problema complexo em subproblemas para facilitar uma exploração mais eficaz da solução. Embora promissora, nossa análise revela um desalinhamento fundamental entre o pós-treinamento de propósito geral e a inferência no estilo DAC, o que limita a capacidade do modelo de aproveitar todo este potencial. Para preencher essa lacuna e desbloquear completamente as capacidades de raciocínio dos LLMs nas tarefas mais desafiadoras, propomos uma estrutura de aprendizagem por reforço (RL) de ponta a ponta para aprimorar sua capacidade de raciocínio no estilo DAC. A cada etapa, a política decompõe um problema em um grupo de subproblemas, resolve-os sequencialmente e aborda o problema original condicionado às soluções dos subproblemas, integrando tanto a decomposição quanto a solução no treinamento de RL. Sob treinamento comparável, nossa estrutura no estilo DAC confere ao modelo um limite de desempenho mais alto e uma escalabilidade em tempo de teste mais forte, superando o CoT em 8,6% em Pass@1 e 6,3% em Pass@32 em benchmarks de nível competitivo.

English

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

O Treino de LLMs para Raciocínio de Dividir e Conquistar Eleva a Escalabilidade em Tempo de Teste

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Resumo

Support