ChatPaper.aiChatPaper

Обучение больших языковых моделей для рассуждений по принципу «разделяй и властвуй» повышает масштабируемость на этапе тестирования

Training LLMs for Divide-and-Conquer Reasoning Elevates Test-Time Scalability

February 2, 2026
Авторы: Xiao Liang, Zhong-Zhi Li, Zhenghao Lin, Eric Hancheng Jiang, Hengyuan Zhang, Yelong Shen, Kai-Wei Chang, Ying Nian Wu, Yeyun Gong, Weizhu Chen
cs.AI

Аннотация

Крупные языковые модели (LLM) продемонстрировали высокие способности к рассуждению благодаря пошаговому цепочечному мышлению (CoT). Тем не менее, на пределе возможностей модели CoT часто оказывается недостаточным, а его строго последовательный характер ограничивает масштабируемость во время тестирования. Перспективной альтернативой является декомпозиционное рассуждение (DAC), которое разбивает сложную задачу на подзадачи для облегчения более эффективного исследования решения. Несмотря на перспективность, наш анализ выявляет фундаментальное несоответствие между общецелевой пост-обученной моделью и DAC-стилем вывода, что ограничивает способность модели полностью раскрыть этот потенциал. Для преодоления этого разрыва и полного раскрытия способностей LLM к рассуждению на наиболее сложных задачах мы предлагаем сквозную систему обучения с подкреплением (RL) для улучшения их DAC-стиля рассуждений. На каждом шаге политика декомпозирует задачу на группу подзадач, последовательно решает их и решает исходную задачу с учетом решений подзадач, причем как декомпозиция, так и решение интегрированы в RL-обучение. При сопоставимом обучении наша DAC-ориентированная система наделяет модель более высоким потолком производительности и лучшей масштабируемостью во время тестирования, превосходя CoT на 8.6% по Pass@1 и на 6.3% по Pass@32 на эталонных тестах уровня соревнований.
English
Large language models (LLMs) have demonstrated strong reasoning capabilities through step-by-step chain-of-thought (CoT) reasoning. Nevertheless, at the limits of model capability, CoT often proves insufficient, and its strictly sequential nature constrains test-time scalability. A potential alternative is divide-and-conquer (DAC) reasoning, which decomposes a complex problem into subproblems to facilitate more effective exploration of the solution. Although promising, our analysis reveals a fundamental misalignment between general-purpose post-training and DAC-style inference, which limits the model's capacity to fully leverage this potential. To bridge this gap and fully unlock LLMs' reasoning capabilities on the most challenging tasks, we propose an end-to-end reinforcement learning (RL) framework to enhance their DAC-style reasoning capacity. At each step, the policy decomposes a problem into a group of subproblems, solves them sequentially, and addresses the original one conditioned on the subproblem solutions, with both decomposition and solution integrated into RL training. Under comparable training, our DAC-style framework endows the model with a higher performance ceiling and stronger test-time scalability, surpassing CoT by 8.6% in Pass@1 and 6.3% in Pass@32 on competition-level benchmarks.
PDF82February 7, 2026