Bootstrapping von Aufgabenräumen zur Selbstverbesserung

papers.abstract

Fortschritte in vielen Aufgabenbereichen entstehen durch wiederholte Überarbeitungen früherer Lösungsversuche. Das Training von Agenten, die zuverlässig in der Lage sind, sich über solche Sequenzen zur Inferenzzeit selbst zu verbessern, ist ein natürliches Ziel für Reinforcement Learning (RL). Der naive Ansatz geht jedoch von einer festen maximalen Iterationstiefe aus, was sowohl kostspielig als auch willkürlich sein kann. Wir stellen Exploratory Iteration (ExIt) vor, eine Familie von Autocurriculum-RL-Methoden, die die wiederkehrende Struktur von Selbstverbesserungsaufgaben direkt nutzt, um LLMs für mehrstufige Selbstverbesserung zur Inferenzzeit zu trainieren, während nur die informativsten einstufigen Iterationen verwendet werden. ExIt erweitert einen Aufgabenraum, indem es selektiv die informativsten Zwischenzustände und partiellen Verläufe, die während einer Episode auftreten, für weitere Iterationen auswählt und diese Ausgangspunkte als neue Instanzen von Selbstiterationsaufgaben behandelt, um eine Selbstverbesserungsstrategie zu trainieren. ExIt kann zudem mit expliziten Explorationsmechanismen kombiniert werden, um eine größere Aufgabenvielfalt zu erhalten. In mehreren Bereichen, darunter Wettbewerbsmathematik, mehrstufige Werkzeugnutzung und maschinelles Lernen in der Ingenieurwissenschaft, zeigen wir, dass ExIt-Strategien, ausgehend von einer einzelnen oder mehreren Aufgabeninstanzen, Strategien hervorbringen können, die eine starke Selbstverbesserung zur Inferenzzeit bei zurückgehaltenen Aufgabeninstanzen aufweisen und die Fähigkeit besitzen, über ein Schrittbudget hinaus, das die durchschnittliche Iterationstiefe während des Trainings übersteigt, zu höherer Leistung zu iterieren.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Bootstrapping von Aufgabenräumen zur Selbstverbesserung

Bootstrapping Task Spaces for Self-Improvement

papers.abstract

Support