自己改善のためのタスク空間のブートストラップ
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
著者: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
要旨
多くのタスク領域における進歩は、以前の解決策の試みに対する繰り返しの修正から生まれます。推論時にそのようなシーケンスを経て確実に自己改善できるエージェントを訓練することは、強化学習(RL)の自然な目標です。しかし、ナイーブなアプローチでは固定された最大反復深度を仮定しており、これはコストがかかる上に恣意的でもあります。本論文では、Exploratory Iteration(ExIt)を提案します。これは、自己改善タスクの再帰的構造を直接活用して、推論時に多段階の自己改善を実行するLLMを訓練する一方で、最も情報量の多い単一段階の反復のみを訓練対象とする、オートカリキュラムRL手法のファミリーです。ExItは、エピソード中に遭遇した最も情報量の多い中間的な部分履歴を選択的にサンプリングしてタスク空間を拡大し、これらの開始点を新しい自己反復タスクインスタンスとして扱い、自己改善ポリシーを訓練します。ExItは、明示的な探索メカニズムと組み合わせることで、より大きなタスク多様性を維持することもできます。競技数学、マルチターンのツール使用、機械学習エンジニアリングなど、いくつかの領域にわたって、単一または複数のタスクインスタンスから開始するExIt戦略が、保持されたタスクインスタンスに対して強い推論時自己改善を示すポリシーを生成し、訓練中に遭遇した平均反復深度を超えるステップ予算内でより高いパフォーマンスに向けて反復する能力を有することを実証します。
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.