RLAD: Обучение языковых моделей для выявления абстракций при решении задач, требующих логического рассуждения

Аннотация

Рассуждение требует выхода за рамки сопоставления шаблонов или запоминания решений, чтобы выявлять и применять "алгоритмические процедуры", которые могут быть использованы для вывода ответов на сложные задачи. Это требует осознания наиболее релевантных примитивов, промежуточных результатов или общих процедур и построения на их основе. Хотя обучение с подкреплением (RL) на длинных цепочках рассуждений в конечном итоге направлено на раскрытие такого алгоритмического поведения, большинство траекторий рассуждений, изучаемых крупными моделями, не способны последовательно фиксировать или повторно использовать процедуры, вместо этого скатываясь в многословное и дегенеративное исследование. Для более эффективного рассуждения мы вводим абстракции рассуждений: краткие описания на естественном языке процедурных и фактологических знаний, которые направляют модель на изучение успешных рассуждений. Мы обучаем модели способности предлагать несколько абстракций для данной задачи, за которыми следует RL, стимулирующий построение решения с использованием информации, предоставленной этими абстракциями. Это приводит к парадигме обучения RL с двумя игроками, сокращенно RLAD, которая совместно обучает генератор абстракций и генератор решений. Такая настройка эффективно обеспечивает структурированное исследование, разделяет сигналы обучения для предложения абстракций и генерации решений и улучшает обобщение на более сложные задачи. Мы также показываем, что выделение большего объема вычислительных ресурсов на этапе тестирования для генерации абстракций более полезно для производительности, чем генерация большего количества решений при больших тестовых бюджетах, что иллюстрирует роль абстракций в направлении осмысленного исследования.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.