RLAD: Addestramento di LLM per Scoprire Astrazioni nella Risoluzione di Problemi di Ragionamento

Abstract

Il ragionamento richiede andare oltre il semplice pattern matching o la memorizzazione di soluzioni per identificare e implementare "procedure algoritmiche" che possano essere utilizzate per dedurre risposte a problemi complessi. Ciò richiede la comprensione delle primitive più rilevanti, dei risultati intermedi o delle procedure condivise, e la costruzione su di essi. Sebbene il reinforcement learning (RL) post-addestramento su lunghe catene di pensiero miri a scoprire questo tipo di comportamento algoritmico, la maggior parte delle tracce di ragionamento apprese dai modelli di grandi dimensioni non riesce a catturare o riutilizzare in modo coerente le procedure, finendo invece per deviare in esplorazioni verbose e degenerate. Per affrontare un ragionamento più efficace, introduciamo le astrazioni di ragionamento: descrizioni concise in linguaggio naturale di conoscenze procedurali e fattuali che guidano il modello verso l'apprendimento di un ragionamento di successo. Addestriamo i modelli a essere in grado di proporre più astrazioni dato un problema, seguito da RL che incentiva la costruzione di una soluzione utilizzando le informazioni fornite da queste astrazioni. Ciò risulta in un paradigma di addestramento RL a due giocatori, abbreviato come RLAD, che addestra congiuntamente un generatore di astrazioni e un generatore di soluzioni. Questa configurazione abilita efficacemente un'esplorazione strutturata, disaccoppia i segnali di apprendimento della proposta di astrazioni e della generazione di soluzioni, e migliora la generalizzazione a problemi più difficili. Mostriamo inoltre che allocare più risorse computazionali al tempo di test per generare astrazioni è più vantaggioso per le prestazioni rispetto alla generazione di più soluzioni con budget di test elevati, illustrando il ruolo delle astrazioni nel guidare un'esplorazione significativa.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.

RLAD: Addestramento di LLM per Scoprire Astrazioni nella Risoluzione di Problemi di Ragionamento

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

Abstract

Support