Bootstrapping van Taakruimten voor Zelfverbetering
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
Auteurs: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
Samenvatting
Vooruitgang in veel taakdomeinen ontstaat door herhaalde revisies van eerdere oplossingspogingen. Het trainen van agents die betrouwbaar kunnen zelfverbeteren over dergelijke sequenties tijdens inferentie is een natuurlijk doel voor reinforcement learning (RL), maar de naïeve aanpak veronderstelt een vaste maximale iteratiediepte, wat zowel kostbaar als willekeurig kan zijn. Wij presenteren Exploratory Iteration (ExIt), een familie van autocurriculum RL-methoden die direct gebruikmaakt van de recurrente structuur van zelfverbeteringstaken om LLM's te trainen voor multi-staps zelfverbetering tijdens inferentie, terwijl alleen getraind wordt op de meest informatieve enkele-stap iteraties. ExIt breidt een taakruimte uit door selectief de meest informatieve tussenliggende, gedeeltelijke geschiedenissen die tijdens een episode worden tegengekomen te bemonsteren voor verdere iteratie, en behandelt deze startpunten als nieuwe zelfiteratietaakinstanties om een zelfverbeteringsbeleid te trainen. ExIt kan verder worden gecombineerd met expliciete exploratiemechanismen om een grotere taakdiversiteit te behouden. Over verschillende domeinen, waaronder competitiewiskunde, multi-turn tool-gebruik en machine learning engineering, demonstreren we dat ExIt-strategieën, startend vanuit een enkele of meerdere taakinstanties, beleidsregels kunnen produceren die sterke zelfverbetering tijdens inferentie vertonen op achtergehouden taakinstanties, en de mogelijkheid hebben om te itereren naar hogere prestaties over een stapbudget dat verder reikt dan de gemiddelde iteratiediepte die tijdens de training werd tegengekomen.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.