ChatPaper.aiChatPaper

El entrenamiento de LLM para el razonamiento de divide y vencerás eleva la escalabilidad en tiempo de prueba

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

February 2, 2026
Autores: Xiao Liang, Zhong-Zhi Li, Zhenghao Lin, Eric Hancheng Jiang, Hengyuan Zhang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Yeyun Gong, Weizhu Chen
cs.AI

Resumen

Los grandes modelos de lenguaje (LLM) han demostrado sólidas capacidades de razonamiento mediante el razonamiento paso a paso de cadena de pensamiento (CoT). Sin embargo, en los límites de la capacidad del modelo, el CoT a menudo resulta insuficiente, y su naturaleza estrictamente secuencial restringe la escalabilidad en tiempo de prueba. Una alternativa potencial es el razonamiento de tipo divide y vencerás (DAC), que descompone un problema complejo en subproblemas para facilitar una exploración más efectiva de la solución. Aunque es prometedor, nuestro análisis revela una desalineación fundamental entre el post-entrenamiento de propósito general y la inferencia de estilo DAC, lo que limita la capacidad del modelo para aprovechar todo este potencial. Para cerrar esta brecha y desbloquear completamente las capacidades de razonamiento de los LLM en las tareas más desafiantes, proponemos un marco de aprendizaje por refuerzo (RL) de extremo a extremo para mejorar su capacidad de razonamiento de estilo DAC. En cada paso, la política descompone un problema en un grupo de subproblemas, los resuelve secuencialmente y aborda el problema original condicionado a las soluciones de los subproblemas, integrando tanto la descomposición como la solución en el entrenamiento de RL. Bajo un entrenamiento comparable, nuestro marco de estilo DAC dota al modelo de un límite de rendimiento más alto y una mayor escalabilidad en tiempo de prueba, superando al CoT en un 8.6% en Pass@1 y en un 6.3% en Pass@32 en puntos de referencia de nivel competitivo.
English
Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.
PDF82February 7, 2026