Aprendendo a Construir o Ambiente: RL de Raciocínio Auto-Evolutivo via Síntese de Ambiente Verificável

Resumo

Buscamos uma visão para modelos de linguagem autoaprimorantes na qual o modelo não apenas gera problemas ou traços para imitar, mas constrói os ambientes que o treinam. No RL de raciocínio com zero dados, isso reformula o autoaprimoramento de um ciclo de geração de dados para um ciclo de construção de ambientes, onde cada artefato é um objeto executável reutilizável que amostra instâncias, calcula referências e pontua respostas. Se essa visão sustenta a melhoria depende de uma única propriedade: os ambientes devem exibir assimetria resolver–verificar estável — o modelo deve ser capaz de escrever um oráculo uma vez que não consiga executar de forma confiável em linguagem natural em instâncias novas. Essa assimetria assume duas formas complementares. Algumas tarefas são algoritmicamente difíceis de raciocinar, mas triviais como código: uma programação dinâmica ou travessia de grafo, compilada uma vez, produz infinitas instâncias calibradas. Outras são intrinsecamente difíceis de resolver, mas fáceis de verificar, como subset-sum plantado ou satisfação de restrições. Ambas criam uma lacuna duradoura entre propor e resolver que a política não consegue fechar manipulando o verificador, e é essa lacuna que mantém a recompensa informativa à medida que o aprendiz melhora. Instanciamos essa visão no EvoEnv, um método gerador de política única e solucionador que sintetiza ambientes Python a partir de dez sementes e os admite somente após validação em etapas, autoavaliação semântica, calibração de dificuldade relativa ao solucionador e verificações de novidade. A evidência mais forte vem do regime já forte: no Qwen3-4B-Thinking, RLVR com dados públicos fixos e RLVR com ambientes artesanais fixos reduzem a média, enquanto o EvoEnv a melhora de 72,4 para 74,8, um ganho relativo de 3,3%. O autoaprimoramento estável, sugerimos, depende não de produzir mais dados sintéticos, mas de modelos aprenderem a construir mundos cuja dificuldade permanece estruturalmente além do próprio alcance.

English

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.