Aprendiendo a Construir el Entorno: RL de Razonamiento Autoevolutivo mediante Síntesis de Entorno Verificable

Resumen

Perseguimos una visión de modelos de lenguaje auto-mejorantes en los que el modelo no se limita a generar problemas o trazas para imitar, sino que construye los entornos que lo entrenan. En el RL de razonamiento con cero datos, esto redefine la auto-mejora, pasando de un bucle de generación de datos a un bucle de construcción de entornos, donde cada artefacto es un objeto ejecutable reutilizable que muestrea instancias, calcula referencias y puntúa respuestas. Que esta visión sostenga la mejora depende de una única propiedad: los entornos deben exhibir una asimetría resolver-verificar estable; el modelo debe ser capaz de escribir un oráculo una vez que no pueda ejecutar de forma fiable en lenguaje natural sobre instancias nuevas. Esta asimetría adopta dos formas complementarias. Algunas tareas son algorítmicamente difíciles de razonar pero triviales como código: una programación dinámica o un recorrido de grafo, compilado una vez, produce un número ilimitado de instancias calibradas. Otras son intrínsecamente difíciles de resolver pero fáciles de verificar, como la suma de subconjuntos plantada o la satisfacción de restricciones. Ambas crean una brecha duradera entre proponer y resolver que la política no puede cerrar engañando al verificador, y es esta brecha la que mantiene la recompensa informativa a medida que el aprendiz mejora. Concretamos esta visión en EvoEnv, un método generador de política única y solucionador que sintetiza entornos Python a partir de diez semillas y los admite solo tras una validación por etapas, auto-revisión semántica, calibración de dificultad relativa al solucionador y comprobaciones de novedad. La evidencia más sólida proviene del régimen ya fuerte: en Qwen3-4B-Thinking, el RLVR con datos públicos fijos y el RLVR con entornos artesanales fijos reducen el promedio, mientras que EvoEnv lo mejora del 72,4 al 74,8, una ganancia relativa del 3,3 %. La auto-mejora estable, sugerimos, no depende de producir más datos sintéticos, sino de que los modelos aprendan a construir mundos cuya dificultad permanezca estructuralmente fuera de su propio alcance.

English

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.