RLAD: Training von LLMs zur Entdeckung von Abstraktionen für die Lösung von Denkproblemen

Zusammenfassung

Schlussfolgern erfordert, über Mustererkennung oder das Auswendiglernen von Lösungen hinauszugehen, um „algorithmische Verfahren“ zu identifizieren und umzusetzen, die zur Ableitung von Antworten auf schwierige Probleme verwendet werden können. Dies erfordert das Erkennen der relevantesten Grundbausteine, Zwischenergebnisse oder gemeinsamen Verfahren und den Aufbau darauf. Während das Reinforcement Learning (RL) nach dem Training auf langen Gedankenketten letztendlich darauf abzielt, dieses algorithmische Verhalten zu entdecken, gelingt es den meisten von großen Modellen erlernten Schlussfolgerungspfaden nicht, Verfahren konsistent zu erfassen oder wiederzuverwenden, sondern sie verfallen in ausufernde und degenerierte Exploration. Um effektiveres Schlussfolgern zu ermöglichen, führen wir Abstraktionen des Schlussfolgerns ein: prägnante Beschreibungen in natürlicher Sprache von prozeduralem und faktischem Wissen, die das Modell dazu anleiten, erfolgreiches Schlussfolgern zu erlernen. Wir trainieren Modelle so, dass sie in der Lage sind, mehrere Abstraktionen zu einem Problem vorzuschlagen, gefolgt von RL, das den Aufbau einer Lösung unter Verwendung der durch diese Abstraktionen bereitgestellten Informationen fördert. Dies führt zu einem Zwei-Spieler-RL-Trainingsparadigma, abgekürzt als RLAD, das gemeinsam einen Abstraktionsgenerator und einen Lösungsgenerator trainiert. Dieser Aufbau ermöglicht effektiv strukturierte Exploration, entkoppelt die Lernsignale der Abstraktionsvorschläge und der Lösungsgenerierung und verbessert die Generalisierung auf schwierigere Probleme. Wir zeigen auch, dass die Zuweisung von mehr Rechenleistung zur Generierung von Abstraktionen während der Testphase vorteilhafter für die Leistung ist als die Generierung weiterer Lösungen bei großen Testbudgets, was die Rolle von Abstraktionen bei der Lenkung sinnvoller Exploration verdeutlicht.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.