Het trainen van grote taalmodellen voor verdeel-en-heers-redenering verbetert de schaalbaarheid tijdens testtijd

Samenvatting

Grote taalmodellen (LLM's) hebben sterke redeneervermogens getoond door middel van stapsgewijze redenering via de chain-of-thought (CoT)-methode. Desalniettemin blijkt CoT vaak ontoereikend bij de grenzen van de modelcapaciteit, en hun strikt sequentiële aard beperkt de schaalbaarheid tijdens het testen. Een mogelijk alternatief is divide-and-conquer (DAC)-redenering, waarbij een complex probleem wordt opgesplitst in subproblemen om een effectievere verkenning van de oplossing te vergemakkelijken. Hoewel veelbelovend, toont onze analyse een fundamentele mismatch aan tussen algemeen post-training gebruik en DAC-stijl inferentie, wat het vermogen van het model beperkt om dit potentieel volledig te benutten. Om deze kloof te overbruggen en de redeneervermogens van LLM's bij de meest uitdagende taken volledig te ontsluiten, stellen we een end-to-end reinforcement learning (RL)-raamwerk voor om hun DAC-redeneervermogen te versterken. Bij elke stap deelt het beleid een probleem op in een groep subproblemen, lost deze sequentieel op, en behandelt het oorspronkelijke probleem op basis van de subprobleemoplossingen, waarbij zowel decompositie als oplossing zijn geïntegreerd in de RL-training. Onder vergelijkbare trainingsomstandigheden voorziet ons DAC-raamwerk het model van een hoger prestatieplafond en sterkere schaalbaarheid tijdens het testen, waarbij het CoT met 8,6% in Pass@1 en 6,3% in Pass@32 overtreft op competitieniveau benchmarks.

English

Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.

Het trainen van grote taalmodellen voor verdeel-en-heers-redenering verbetert de schaalbaarheid tijdens testtijd

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

Samenvatting

Support