Modelle lehren, sich selbst zu unterrichten: Denken an der Grenze der Lernbarkeit
Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability
January 26, 2026
papers.authors: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe
cs.AI
papers.abstract
Kann ein Modell lernen, seine eigene Lernstagnation zu überwinden? Reinforcement-Learning-Methoden für das Feinabstimmen großer Sprachmodelle für logisches Denken stagnieren bei Datensätzen mit niedrigen anfänglichen Erfolgsquoten und somit geringem Trainingssignal. Wir untersuchen eine grundlegende Frage: Kann ein vortrainiertes großes Sprachmodell latentes Wissen nutzen, um einen automatisierten Lehrplan für Probleme zu generieren, die es nicht lösen kann? Um dies zu erforschen, entwickeln wir SOAR: Ein Selbstverbesserungs-Framework, das darauf abzielt, diese pädagogischen Signale durch Meta-Reinforcement-Learning sichtbar zu machen. Eine Lehrer-Kopie des Modells generiert synthetische Probleme für eine Schüler-Kopie und wird für deren Verbesserung bei einer kleinen Teilmenge schwieriger Probleme belohnt. Entscheidend ist, dass SOAR den Lehrplan an gemessenen Schülerfortschritten und nicht an intrinsischen Stellvertreter-Belohnungen ausrichtet. Unsere Studie zu den schwierigsten Teilmengen mathematischer Benchmarks (0/128 Erfolge) ergibt drei zentrale Erkenntnisse. Erstens zeigen wir, dass es möglich ist, bi-level Meta-Reinforcement-Learning zu realisieren, das Lernen unter spärlichen, binären Belohnungen ermöglicht, indem eine latente Fähigkeit vortrainierter Modelle geschärft wird, nützliche Zwischenschritte zu generieren. Zweitens übertreffen an Fortschritt gemessene Belohnungen intrinsische Belohnungsschemata aus früheren LLM-Selbstspiel-Ansätzen, da sie zuverlässig die bei diesen typischen Instabilitäten und den Kollaps der Vielfalt vermeiden. Drittens zeigt die Analyse der generierten Fragen, dass strukturelle Qualität und Wohlformuliertheit für den Lernfortschritt entscheidender sind als die Lösungsrichtigkeit. Unsere Ergebnisse deuten darauf hin, dass die Fähigkeit, nützliche Zwischenschritte zu generieren, nicht die bereits vorhandene Fähigkeit voraussetzt, die schwierigen Probleme tatsächlich zu lösen. Dies ebnet einen prinzipienbasierten Weg, Denkplateaus ohne zusätzlich kuratierte Daten zu überwinden.
English
Can a model learn to escape its own learning plateau? Reinforcement learning methods for finetuning large reasoning models stall on datasets with low initial success rates, and thus little training signal. We investigate a fundamental question: Can a pretrained LLM leverage latent knowledge to generate an automated curriculum for problems it cannot solve? To explore this, we design SOAR: A self-improvement framework designed to surface these pedagogical signals through meta-RL. A teacher copy of the model proposes synthetic problems for a student copy, and is rewarded with its improvement on a small subset of hard problems. Critically, SOAR grounds the curriculum in measured student progress rather than intrinsic proxy rewards. Our study on the hardest subsets of mathematical benchmarks (0/128 success) reveals three core findings. First, we show that it is possible to realize bi-level meta-RL that unlocks learning under sparse, binary rewards by sharpening a latent capacity of pretrained models to generate useful stepping stones. Second, grounded rewards outperform intrinsic reward schemes used in prior LLM self-play, reliably avoiding the instability and diversity collapse modes they typically exhibit. Third, analyzing the generated questions reveals that structural quality and well-posedness are more critical for learning progress than solution correctness. Our results suggest that the ability to generate useful stepping stones does not require the preexisting ability to actually solve the hard problems, paving a principled path to escape reasoning plateaus without additional curated data.