RLAD: Het trainen van LLM's om abstracties te ontdekken voor het oplossen van redeneerproblemen

Samenvatting

Redeneren vereist meer dan patroonherkenning of het memoriseren van oplossingen om "algoritmische procedures" te identificeren en te implementeren die kunnen worden gebruikt om antwoorden op moeilijke problemen af te leiden. Dit vereist het herkennen van de meest relevante primitieven, tussenresultaten of gedeelde procedures, en daarop voort te bouwen. Hoewel RL na training op lange redeneerketens uiteindelijk streeft naar dit soort algoritmisch gedrag, slagen de meeste redeneersporen die door grote modellen worden geleerd er niet in om procedures consistent vast te leggen of te hergebruiken, en vervallen ze in uitgebreid en gedegenereerd onderzoek. Om effectiever redeneren aan te pakken, introduceren we redeneerabstracties: beknopte natuurlijke taal beschrijvingen van procedurele en feitelijke kennis die het model begeleiden bij het leren van succesvol redeneren. We trainen modellen om meerdere abstracties te kunnen voorstellen gegeven een probleem, gevolgd door RL die het opbouwen van een oplossing stimuleert terwijl gebruik wordt gemaakt van de informatie die door deze abstracties wordt geboden. Dit resulteert in een tweespeler RL-trainingsparadigma, afgekort als RLAD, dat gezamenlijk een abstractiegenerator en een oplossingsgenerator traint. Deze opzet maakt gestructureerde exploratie effectief mogelijk, ontkoppelt leer signalen van abstractievoorstel en oplossingsgeneratie, en verbetert de generalisatie naar moeilijkere problemen. We laten ook zien dat het toewijzen van meer rekentijd tijdens de testfase aan het genereren van abstracties meer voordelig is voor de prestaties dan het genereren van meer oplossingen bij grote testbudgetten, wat de rol van abstracties illustreert in het begeleiden van zinvolle exploratie.

English

Reasoning requires going beyond pattern matching or memorization of solutions to identify and implement "algorithmic procedures" that can be used to deduce answers to hard problems. Doing so requires realizing the most relevant primitives, intermediate results, or shared procedures, and building upon them. While RL post-training on long chains of thought ultimately aims to uncover this kind of algorithmic behavior, most reasoning traces learned by large models fail to consistently capture or reuse procedures, instead drifting into verbose and degenerate exploration. To address more effective reasoning, we introduce reasoning abstractions: concise natural language descriptions of procedural and factual knowledge that guide the model toward learning successful reasoning. We train models to be capable of proposing multiple abstractions given a problem, followed by RL that incentivizes building a solution while using the information provided by these abstractions. This results in a two-player RL training paradigm, abbreviated as RLAD, that jointly trains an abstraction generator and a solution generator. This setup effectively enables structured exploration, decouples learning signals of abstraction proposal and solution generation, and improves generalization to harder problems. We also show that allocating more test-time compute to generating abstractions is more beneficial for performance than generating more solutions at large test budgets, illustrating the role of abstractions in guiding meaningful exploration.

RLAD: Het trainen van LLM's om abstracties te ontdekken voor het oplossen van redeneerproblemen

RLAD: Training LLMs to Discover Abstractions for Solving Reasoning Problems

Samenvatting

Support