RLAD: Treinando LLMs para Descobrir Abstrações na Resolução de Problemas de Raciocínio

Resumo

O raciocínio requer ir além da correspondência de padrões ou da memorização de soluções para identificar e implementar "procedimentos algorítmicos" que possam ser usados para deduzir respostas a problemas difíceis. Isso exige a identificação dos primitivos, resultados intermediários ou procedimentos compartilhados mais relevantes, e a construção sobre eles. Embora o treinamento de RL (Reinforcement Learning) em longas cadeias de pensamento tenha como objetivo final descobrir esse tipo de comportamento algorítmico, a maioria dos traços de raciocínio aprendidos por modelos grandes falham em capturar ou reutilizar procedimentos de forma consistente, desviando-se para uma exploração verbosa e degenerada. Para abordar um raciocínio mais eficaz, introduzimos abstrações de raciocínio: descrições concisas em linguagem natural de conhecimento procedural e factual que orientam o modelo a aprender um raciocínio bem-sucedido. Treinamos modelos para serem capazes de propor múltiplas abstrações diante de um problema, seguido por RL que incentiva a construção de uma solução enquanto utiliza as informações fornecidas por essas abstrações. Isso resulta em um paradigma de treinamento de RL de dois jogadores, abreviado como RLAD, que treina conjuntamente um gerador de abstrações e um gerador de soluções. Essa configuração permite efetivamente uma exploração estruturada, desacopla os sinais de aprendizado da proposta de abstração e da geração de soluções, e melhora a generalização para problemas mais difíceis. Também mostramos que alocar mais tempo de computação em testes para gerar abstrações é mais benéfico para o desempenho do que gerar mais soluções em grandes orçamentos de teste, ilustrando o papel das abstrações em guiar uma exploração significativa.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.

RLAD: Treinando LLMs para Descobrir Abstrações na Resolução de Problemas de Raciocínio

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

Resumo

Support