ChatPaper.aiChatPaper

환경 구축 학습: 검증 가능한 환경 합성을 통한 자기 진화 추론 강화 학습

Learning to Build the Environment: Self-Evolving Reasoning RL via Verifiable Environment Synthesis

May 14, 2026
저자: Yucheng Shi, Zhenwen Liang, Kishan Panaganti, Dian Yu, Wenhao Yu, Haitao Mi
cs.AI

초록

우리는 언어 모델이 단순히 문제나 모방할 흔적을 생성하는 것을 넘어, 스스로를 훈련시키는 환경을 구축하는 자기 개선 언어 모델에 대한 비전을 추구한다. 제로 데이터 추론 강화 학습에서 이는 자기 개선을 데이터 생성 루프에서 환경 구축 루프로 재구성하며, 각 산출물은 인스턴스를 샘플링하고 참조값을 계산하며 응답을 채점하는 재사용 가능한 실행 객체가 된다. 이러한 비전이 지속적인 개선을 유지하는지 여부는 단 하나의 속성에 달려 있다. 환경이 안정적인 해결-검증 비대칭(solve-verify asymmetry)을 나타내야 하며, 모델은 한 번 오라클(oracle)을 작성할 수 있어야 하지만 새로운 인스턴스에 대해 자연어로는 이를 안정적으로 실행할 수 없어야 한다. 이러한 비대칭은 두 가지 상호 보완적인 형태를 취한다. 일부 과제는 알고리즘적으로 추론하기는 어렵지만 코드로는 사소한 경우로, 동적 계획법이나 그래프 순회와 같이 한 번 컴파일되면 무한히 많은 보정된 인스턴스를 생성한다. 다른 과제는 해결하기는 본질적으로 어렵지만 검증은 쉬운 경우로, 심은 부분집합 합(planted subset-sum)이나 제약 충족(constraint satisfaction)과 같은 것이 있다. 둘 다 제안과 해결 사이에 정책이 검증기를 속임으로써 좁힐 수 없는 지속적인 간극을 만들어내며, 학습자가 발전함에 따라 보상이 유용성을 유지하게 하는 것이 바로 이 간극이다. 우리는 이 관점을 EvoEnv(단일 정책 생성기, 해결 방법)에 구현한다. 이 방법은 열 개의 시드로부터 Python 환경을 합성하고, 단계적 검증, 의미론적 자체 검토, 해결자 대비 난이도 보정, 참신성 확인을 거친 후에만 이를 수용한다. 가장 강력한 증거는 이미 강력한 영역에서 나온다. Qwen3-4B-Thinking 모델에서, 고정 공개 데이터를 사용한 RLVR과 고정 수작업 환경을 사용한 RLVR은 평균을 낮추는 반면, EvoEnv는 이를 72.4에서 74.8로 향상시켜 3.3%의 상대적 이득을 보인다. 우리는 안정적인 자기 개선이 더 많은 합성 데이터를 생성하는 것이 아니라, 모델이 난이도가 구조적으로 자신의 도달 범위를 넘어서는 세계를 구축하는 법을 배우는 데 달려 있다고 제안한다.
English
We pursue a vision for self-improving language models in which the model does not merely generate problems or traces to imitate, but constructs the environments that train it. In zero-data reasoning RL, this reframes self-improvement from a data-generation loop into an environment-construction loop, where each artifact is a reusable executable object that samples instances, computes references, and scores responses. Whether this vision sustains improvement hinges on a single property: the environments must exhibit stable solve--verify asymmetry, the model must be able to write an oracle once that it cannot reliably execute in natural language on fresh instances. This asymmetry takes two complementary forms. Some tasks are algorithmically hard to reason through but trivial as code: a dynamic program or graph traversal, compiled once, yields unboundedly many calibrated instances. Others are intrinsically hard to solve but easy to verify, like planted subset-sum or constraint satisfaction. Both create a durable gap between proposing and solving that the policy cannot close by gaming the verifier, and it is this gap that keeps reward informative as the learner improves. We instantiate this view in EvoEnv, a single-policy generator, solver method that synthesizes Python environments from ten seeds and admits them only after staged validation, semantic self-review, solver-relative difficulty calibration, and novelty checks. The strongest evidence comes from the already-strong regime: on Qwen3-4B-Thinking, fixed public-data RLVR and fixed hand-crafted environment RLVR reduce the average, while EvoEnv improves it from 72.4 to 74.8, a relative gain of 3.3%. Stable self-improvement, we suggest, depends not on producing more synthetic data, but on models learning to construct worlds whose difficulty stays structurally beyond their own reach.