Bootstrapping van Taakruimten voor Zelfverbetering

Samenvatting

Vooruitgang in veel taakdomeinen ontstaat door herhaalde revisies van eerdere oplossingspogingen. Het trainen van agents die betrouwbaar kunnen zelfverbeteren over dergelijke sequenties tijdens inferentie is een natuurlijk doel voor reinforcement learning (RL), maar de naïeve aanpak veronderstelt een vaste maximale iteratiediepte, wat zowel kostbaar als willekeurig kan zijn. Wij presenteren Exploratory Iteration (ExIt), een familie van autocurriculum RL-methoden die direct gebruikmaakt van de recurrente structuur van zelfverbeteringstaken om LLM's te trainen voor multi-staps zelfverbetering tijdens inferentie, terwijl alleen getraind wordt op de meest informatieve enkele-stap iteraties. ExIt breidt een taakruimte uit door selectief de meest informatieve tussenliggende, gedeeltelijke geschiedenissen die tijdens een episode worden tegengekomen te bemonsteren voor verdere iteratie, en behandelt deze startpunten als nieuwe zelfiteratietaakinstanties om een zelfverbeteringsbeleid te trainen. ExIt kan verder worden gecombineerd met expliciete exploratiemechanismen om een grotere taakdiversiteit te behouden. Over verschillende domeinen, waaronder competitiewiskunde, multi-turn tool-gebruik en machine learning engineering, demonstreren we dat ExIt-strategieën, startend vanuit een enkele of meerdere taakinstanties, beleidsregels kunnen produceren die sterke zelfverbetering tijdens inferentie vertonen op achtergehouden taakinstanties, en de mogelijkheid hebben om te itereren naar hogere prestaties over een stapbudget dat verder reikt dan de gemiddelde iteratiediepte die tijdens de training werd tegengekomen.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Bootstrapping van Taakruimten voor Zelfverbetering

Bootstrapping Task Spaces for Self-Improvement

Samenvatting

Support