Обучение построению среды: самоэволюционирующее рассуждение с подкреплением через синтез верифицируемой среды

Аннотация

Мы придерживаемся концепции самоулучшающихся языковых моделей, в которой модель не просто генерирует задачи или траектории для подражания, а создает окружения, которые ее обучают. В RL с нулевым объемом данных для рассуждений это переводит самоулучшение из цикла генерации данных в цикл построения окружений, где каждый артефакт представляет собой многократно используемый исполняемый объект, который выбирает экземпляры, вычисляет эталоны и оценивает ответы. Устойчивость такого улучшения зависит от одного свойства: окружения должны демонстрировать стабильную асимметрию между решением и проверкой — модель должна быть способна однажды написать оракул, который она не может надежно выполнить на естественном языке для новых экземпляров. Эта асимметрия принимает две взаимодополняющие формы. Одни задачи алгоритмически сложны для логического вывода, но тривиальны в виде кода: динамическое программирование или обход графа, скомпилированные единожды, порождают неограниченно много калиброванных экземпляров. Другие — внутренне сложны для решения, но легки для проверки, например, встроенная задача о сумме подмножеств или выполнение ограничений. И то, и другое создает устойчивый разрыв между предлагаемым решением и фактическим разрешением задачи, который политика не может закрыть, обманывая верификатор, и именно этот разрыв сохраняет информативность награды по мере улучшения обучаемого. Мы реализуем эту концепцию в EvoEnv — методе генерации и решения с единой политикой, который синтезирует окружения на Python из десяти начальных точек и допускает их только после поэтапной валидации, семантической саморецензии, калибровки сложности относительно решателя и проверок новизны. Наиболее убедительные доказательства получены в сценарии, где модель уже сильна: на Qwen3-4B-Thinking фиксированный RLVR на основе публичных данных и фиксированный RLVR на основе вручную созданных окружений снижают средний показатель, тогда как EvoEnv повышает его с 72,4 до 74,8 — относительный прирост в 3,3%. Устойчивое самоулучшение, как мы предполагаем, зависит не от генерации большего объема синтетических данных, а от того, научатся ли модели создавать миры, сложность которых структурно превосходит их собственные возможности.

English

We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.