ChatPaper.aiChatPaper

Enseigner aux modèles à s'auto-instruire : raisonner aux limites de l'apprenabilité

Teaching Models to Teach Themselves: Reasoning at the Edge of Learnability

January 26, 2026
papers.authors: Shobhita Sundaram, John Quan, Ariel Kwiatkowski, Kartik Ahuja, Yann Ollivier, Julia Kempe
cs.AI

papers.abstract

Un modèle peut-il apprendre à échapper à son propre plateau d'apprentissage ? Les méthodes d'apprentissage par renforcement pour le réglage fin de grands modèles de raisonnement stagnent sur des ensembles de données présentant des taux de réussite initiaux faibles, et donc peu de signaux d'entraînement. Nous étudions une question fondamentale : un LLM pré-entraîné peut-il exploiter des connaissances latentes pour générer un curriculum automatisé pour des problèmes qu'il ne peut pas résoudre ? Pour explorer cela, nous concevons SOAR : un cadre d'auto-amélioration conçu pour faire émerger ces signaux pédagogiques via du méta-RL. Une copie « enseignant » du modèle propose des problèmes synthétiques à une copie « élève », et est récompensée par l'amélioration de cette dernière sur un petit sous-ensemble de problèmes difficiles. Point crucial, SOAR ancre le curriculum dans le progrès mesuré de l'élève plutôt que dans des récompenses proxies intrinsèques. Notre étude sur les sous-ensembles les plus difficiles de benchmarks mathématiques (0/128 de réussite) révèle trois résultats fondamentaux. Premièrement, nous montrons qu'il est possible de réaliser un méta-RL bi-niveau qui débloque l'apprentissage avec des récompenses binaires et rares, en aiguisant une capacité latente des modèles pré-entraînés à générer des étapes intermédiaires utiles. Deuxièmement, les récompenses ancrées surpassent les schémas de récompense intrinsèque utilisés dans les précédents travaux d'auto-jeu pour LLM, évitant de manière fiable les instabilités et les effondrements de la diversité qu'ils présentent typiquement. Troisièmement, l'analyse des questions générées révèle que la qualité structurelle et le caractère bien posé des problèmes sont plus critiques pour la progression de l'apprentissage que l'exactitude de leur solution. Nos résultats suggèrent que la capacité à générer des étapes intermédiaires utiles ne nécessite pas la capacité préexistante à résoudre réellement les problèmes difficiles, ouvrant une voie princière pour échapper aux plateaux de raisonnement sans données supplémentaires curatées.
English
Can a model learn to escape its own learning plateau? Reinforcement learning methods for finetuning large reasoning models stall on datasets with low initial success rates, and thus little training signal. We investigate a fundamental question: Can a pretrained LLM leverage latent knowledge to generate an automated curriculum for problems it cannot solve? To explore this, we design SOAR: A self-improvement framework designed to surface these pedagogical signals through meta-RL. A teacher copy of the model proposes synthetic problems for a student copy, and is rewarded with its improvement on a small subset of hard problems. Critically, SOAR grounds the curriculum in measured student progress rather than intrinsic proxy rewards. Our study on the hardest subsets of mathematical benchmarks (0/128 success) reveals three core findings. First, we show that it is possible to realize bi-level meta-RL that unlocks learning under sparse, binary rewards by sharpening a latent capacity of pretrained models to generate useful stepping stones. Second, grounded rewards outperform intrinsic reward schemes used in prior LLM self-play, reliably avoiding the instability and diversity collapse modes they typically exhibit. Third, analyzing the generated questions reveals that structural quality and well-posedness are more critical for learning progress than solution correctness. Our results suggest that the ability to generate useful stepping stones does not require the preexisting ability to actually solve the hard problems, paving a principled path to escape reasoning plateaus without additional curated data.
PDF221January 28, 2026