Leren om de Omgeving te Bouwen: Zelf-Evoluerend Redeneren RL via Verifieerbare Omgevingssynthese

Samenvatting

Wij streven naar een visie voor zelfverbeterende taalmodellen waarbij het model niet alleen problemen of sporen genereert om na te bootsen, maar de omgevingen construeert die het trainen. In nuldata- redeneringsversterkingsleren herformuleert dit zelfverbetering van een datageneratiecyclus naar een omgevingsconstructiecyclus, waarbij elk artefact een herbruikbaar uitvoerbaar object is dat instanties bemonstert, referenties berekent en reacties scoort. Of deze visie verbetering in stand houdt, hangt af van één enkele eigenschap: de omgevingen moeten een stabiele oplossen--verifiëren-asymmetrie vertonen, het model moet in staat zijn een orakel één keer te schrijven dat het niet betrouwbaar kan uitvoeren in natuurlijke taal op nieuwe instanties. Deze asymmetrie kent twee complementaire vormen. Sommige taken zijn algoritmisch moeilijk om door te redeneren maar triviaal als code: een dynamisch programmeren of graaftraversaal, eenmalig gecompileerd, levert onbegrensd veel gekalibreerde instanties op. Andere zijn intrinsiek moeilijk op te lossen maar gemakkelijk te verifiëren, zoals geplante deelsom of beperkingsbevrediging. Beide creëren een duurzame kloof tussen het voorstellen en oplossen die het beleid niet kan dichten door de verificateur te bespelen, en het is deze kloof die de beloning informatief houdt naarmate de lerende verbetert. Wij concretiseren deze visie in EvoEnv, een generator van enkelvoudig beleid, een oplosmethode die Python-omgevingen synthetiseert uit tien zaadjes en deze pas toelaat na gefaseerde validatie, semantische zelfbeoordeling, oplosser-relatieve moeilijkheidskalibratie en nieuwheidscontroles. Het sterkste bewijs komt uit het reeds sterke regime: op Qwen3-4B-Thinking verlagen vaste openbare data-RLVR en vaste handgemaakte omgeving-RLVR het gemiddelde, terwijl EvoEnv het verbetert van 72,4 naar 74,8, een relatieve winst van 3,3%. Stabiele zelfverbetering, suggereren wij, hangt niet af van het produceren van meer synthetische data, maar van modellen die leren werelden te construeren waarvan de moeilijkheid structureel buiten hun eigen bereik ligt.

English

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.