자기 개선을 위한 작업 공간 부트스트래핑
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
저자: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
초록
많은 작업 영역에서의 진전은 이전 솔루션 시도에 대한 반복적인 수정을 통해 이루어집니다. 이러한 시퀀스에서 추론 시간에 걸쳐 안정적으로 자기 개선을 할 수 있는 에이전트를 훈련시키는 것은 강화 학습(RL)의 자연스러운 목표이지만, 단순한 접근 방식은 고정된 최대 반복 깊이를 가정하여 비용이 많이 들고 임의적일 수 있습니다. 우리는 탐색적 반복(Exploratory Iteration, ExIt)을 제시합니다. ExIt은 자기 개선 작업의 반복적 구조를 직접 활용하여 추론 시간에 다단계 자기 개선을 수행할 수 있는 LLM(Large Language Model)을 훈련시키는 자동 커리큘럼 RL 방법의 한 패밀리입니다. 이 방법은 가장 유익한 단일 단계 반복만을 훈련 데이터로 사용합니다. ExIt은 에피소드 동안 마주친 가장 유익한 중간 부분 기록을 선택적으로 샘플링하여 작업 공간을 확장하고, 이러한 시작점을 새로운 자기 반복 작업 인스턴스로 취급하여 자기 개선 정책을 훈련시킵니다. ExIt은 명시적인 탐색 메커니즘과 결합하여 더 큰 작업 다양성을 유지할 수도 있습니다. 경쟁 수학, 다중 턴 도구 사용, 머신러닝 엔지니어링을 포함한 여러 영역에서, ExIt 전략이 단일 또는 다수의 작업 인스턴스에서 시작하여 훈련 중 마주친 평균 반복 깊이를 넘어서는 단계 예산 내에서 더 높은 성능을 향해 반복할 수 있는 정책을 생성할 수 있음을 보여줍니다. 또한, 이 정책은 보유된 작업 인스턴스에서 강력한 추론 시간 자기 개선 능력을 보입니다.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.