Lernen, die Umgebung aufzubauen: Selbst-evolvierendes Reasoning-RL durch verifizierbare Umgebungssynthese
Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis
May 14, 2026
Autoren: Yucheng Shi, Zhenwen Liang, Kishan Panaganti, Dian Yu, Wenhao Yu, Haitao Mi
cs.AI
Zusammenfassung
Wir verfolgen eine Vision für sich selbst verbessernde Sprachmodelle, in der das Modell nicht nur Probleme oder Abläufe zur Nachahmung erzeugt, sondern die Umgebungen konstruiert, die es trainieren. Im zero-data reasoning RL wird dadurch die Selbstverbesserung von einer Datengenerierungsschleife zu einer Umgebungskonstruktionsschleife umgestaltet, wobei jedes Artefakt ein wiederverwendbares ausführbares Objekt ist, das Instanzen abtastet, Referenzen berechnet und Antworten bewertet. Ob diese Vision eine nachhaltige Verbesserung ermöglicht, hängt von einer einzigen Eigenschaft ab: Die Umgebungen müssen eine stabile Lösen-Verifizieren-Asymmetrie aufweisen – das Modell muss in der Lage sein, einmal ein Orakel zu schreiben, das es in natürlicher Sprache bei neuen Instanzen nicht zuverlässig ausführen kann. Diese Asymmetric tritt in zwei komplementären Formen auf. Manche Aufgaben sind algorithmisch schwer zu durchdenken, aber trivial als Code: Ein dynamisches Programm oder eine Graphtraversierung, einmal kompiliert, liefert unbegrenzt viele kalibrierte Instanzen. Andere sind inhärent schwer zu lösen, aber einfach zu verifizieren, wie eingepflanzte Teilmengensummen- oder Constraint-Erfüllungsprobleme. Beide erzeugen eine dauerhafte Lücke zwischen Vorschlagen und Lösen, die die Policy nicht durch Ausnutzung des Verifizierers schließen kann, und genau diese Lücke hält die Belohnung informativ, während der Lernende sich verbessert. Wir setzen diese Sichtweise in EvoEnv um, einer Ein-Policy-Generator-, Löser-Methode, die Python-Umgebungen aus zehn Seeds synthetisiert und sie erst nach stufenweiser Validierung, semantischer Selbstüberprüfung, lösungsrelativer Schwierigkeitskalibrierung und Neuheitsprüfungen zulässt. Die stärksten Belege stammen aus dem bereits starken Regime: Bei Qwen3-4B-Thinking verringern feste öffentliche Daten-RLVR und feste handgefertigte Umgebungs-RLVR den Durchschnitt, während EvoEnv ihn von 72,4 auf 74,8 verbessert, ein relativer Gewinn von 3,3 %. Stabile Selbstverbesserung, so legen wir nahe, hängt nicht davon ab, mehr synthetische Daten zu erzeugen, sondern davon, dass Modelle lernen, Welten zu konstruieren, deren Schwierigkeit strukturell außerhalb ihrer eigenen Reichweite bleibt.
English
We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.