L'Addestramento di LLM per il Ragionamento Divide-et-Impera Migliora la Scalabilità al Momento del Test

Abstract

I grandi modelli linguistici (LLM) hanno dimostrato notevoli capacità di ragionamento attraverso il ragionamento passo-passo a catena del pensiero (CoT). Tuttavia, ai limiti delle capacità del modello, il CoT si rivela spesso insufficiente, e la sua natura strettamente sequenziale limita la scalabilità al momento del test. Un'alternativa potenziale è il ragionamento divide-et-impera (DAC), che scompone un problema complesso in sottoproblemi per facilitare un'esplorazione più efficace della soluzione. Sebbene promettente, la nostra analisi rivela un disallineamento fondamentale tra l'inferenza post-addestramento generica e lo stile DAC, che limita la capacità del modello di sfruttare appieno questo potenziale. Per colmare questa lacuna e sbloccare completamente le capacità di ragionamento degli LLM sui compiti più impegnativi, proponiamo un framework end-to-end di apprendimento per rinforzo (RL) per potenziare la loro capacità di ragionamento in stile DAC. Ad ogni passo, la politica scompone un problema in un gruppo di sottoproblemi, li risolve sequenzialmente e affronta quello originale condizionatamente alle soluzioni dei sottoproblemi, integrando sia la scomposizione che la soluzione nell'addestramento RL. Con un addestramento comparabile, il nostro framework in stile DAC conferisce al modello un limite di prestazioni più elevato e una scalabilità al test più robusta, superando il CoT dell'8.6% in Pass@1 e del 6.3% in Pass@32 su benchmark di livello competitivo.

English

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

L'Addestramento di LLM per il Ragionamento Divide-et-Impera Migliora la Scalabilità al Momento del Test

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Abstract

Support