Bootstrapping von Aufgabenräumen zur Selbstverbesserung
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
papers.authors: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
papers.abstract
Fortschritte in vielen Aufgabenbereichen entstehen durch wiederholte Überarbeitungen früherer Lösungsversuche. Das Training von Agenten, die zuverlässig in der Lage sind, sich über solche Sequenzen zur Inferenzzeit selbst zu verbessern, ist ein natürliches Ziel für Reinforcement Learning (RL). Der naive Ansatz geht jedoch von einer festen maximalen Iterationstiefe aus, was sowohl kostspielig als auch willkürlich sein kann. Wir stellen Exploratory Iteration (ExIt) vor, eine Familie von Autocurriculum-RL-Methoden, die die wiederkehrende Struktur von Selbstverbesserungsaufgaben direkt nutzt, um LLMs für mehrstufige Selbstverbesserung zur Inferenzzeit zu trainieren, während nur die informativsten einstufigen Iterationen verwendet werden. ExIt erweitert einen Aufgabenraum, indem es selektiv die informativsten Zwischenzustände und partiellen Verläufe, die während einer Episode auftreten, für weitere Iterationen auswählt und diese Ausgangspunkte als neue Instanzen von Selbstiterationsaufgaben behandelt, um eine Selbstverbesserungsstrategie zu trainieren. ExIt kann zudem mit expliziten Explorationsmechanismen kombiniert werden, um eine größere Aufgabenvielfalt zu erhalten. In mehreren Bereichen, darunter Wettbewerbsmathematik, mehrstufige Werkzeugnutzung und maschinelles Lernen in der Ingenieurwissenschaft, zeigen wir, dass ExIt-Strategien, ausgehend von einer einzelnen oder mehreren Aufgabeninstanzen, Strategien hervorbringen können, die eine starke Selbstverbesserung zur Inferenzzeit bei zurückgehaltenen Aufgabeninstanzen aufweisen und die Fähigkeit besitzen, über ein Schrittbudget hinaus, das die durchschnittliche Iterationstiefe während des Trainings übersteigt, zu höherer Leistung zu iterieren.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.