RLAD : Entraîner des LLM à découvrir des abstractions pour résoudre des problèmes de raisonnement

Résumé

Le raisonnement nécessite de dépasser la simple correspondance de motifs ou la mémorisation de solutions pour identifier et mettre en œuvre des « procédures algorithmiques » permettant de déduire des réponses à des problèmes complexes. Cela implique de reconnaître les primitives, résultats intermédiaires ou procédures partagées les plus pertinents, puis de s’appuyer sur eux. Bien que l’apprentissage par renforcement (RL) post-entraînement sur de longues chaînes de raisonnement vise à découvrir ce type de comportement algorithmique, la plupart des traces de raisonnement apprises par les grands modèles échouent à capturer ou à réutiliser de manière cohérente des procédures, dérivant plutôt vers une exploration verbale et dégénérée. Pour aborder un raisonnement plus efficace, nous introduisons des abstractions de raisonnement : des descriptions concises en langage naturel de connaissances procédurales et factuelles qui guident le modèle vers l’apprentissage d’un raisonnement réussi. Nous entraînons les modèles à proposer plusieurs abstractions face à un problème, suivies d’un RL qui incite à construire une solution en utilisant les informations fournies par ces abstractions. Cela aboutit à un paradigme d’entraînement RL à deux joueurs, abrégé RLAD, qui entraîne conjointement un générateur d’abstractions et un générateur de solutions. Cette configuration permet une exploration structurée, découple les signaux d’apprentissage de la proposition d’abstractions et de la génération de solutions, et améliore la généralisation à des problèmes plus difficiles. Nous montrons également qu’allouer plus de ressources de calcul au temps de test pour générer des abstractions est plus bénéfique pour la performance que de générer davantage de solutions avec des budgets de test élevés, illustrant ainsi le rôle des abstractions dans la guidance d’une exploration significative.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.