Apprendre à construire l'environnement : RL de raisonnement auto-évolutif via la synthèse d'environnement vérifiable

Résumé

Nous poursuivons une vision de modèles de langage auto-améliorants dans laquelle le modèle ne se contente pas de générer des problèmes ou des traces à imiter, mais construit les environnements qui l’entraînent. Dans le cadre du RL de raisonnement sans données, cette vision reformule l’auto-amélioration comme passant d’une boucle de génération de données à une boucle de construction d’environnements, où chaque artefact est un objet exécutable réutilisable qui échantillonne des instances, calcule des références et évalue les réponses. La pérennité de cette amélioration repose sur une propriété unique : les environnements doivent présenter une asymétrie stable entre résolution et vérification ; le modèle doit être capable d’écrire un oracle une fois pour toutes, qu’il ne peut pas exécuter de manière fiable en langage naturel sur de nouvelles instances. Cette asymétrie prend deux formes complémentaires. Certaines tâches sont algorithmiquement difficiles à raisonner mais triviales en tant que code : un programme dynamique ou un parcours de graphe, compilé une fois, produit un nombre illimité d’instances calibrées. D’autres sont intrinsèquement difficiles à résoudre mais faciles à vérifier, comme le subset-sum planté ou la satisfaction de contraintes. Toutes deux créent un écart durable entre la proposition et la résolution que la politique ne peut combler en contournant le vérificateur, et c’est cet écart qui maintient la récompense informative à mesure que l’apprenant progresse. Nous instancions cette vision dans EvoEnv, une méthode générateur-résolveur à politique unique qui synthétise des environnements Python à partir de dix graines et ne les admet qu’après une validation par étapes, une auto-évaluation sémantique, une calibration de difficulté relative au résolveur et des vérifications de nouveauté. La preuve la plus solide provient du régime déjà fort : sur Qwen3-4B-Thinking, le RLVR sur données publiques fixes et le RLVR sur environnements artisanaux fixes réduisent la moyenne, tandis qu’EvoEnv l’améliore de 72,4 à 74,8, soit un gain relatif de 3,3 %. L’auto-amélioration stable, suggérons-nous, ne dépend pas de la production de davantage de données synthétiques, mais de l’apprentissage par les modèles à construire des mondes dont la difficulté reste structurellement hors de leur propre portée.

English

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.