Amorçage des Espaces de Tâches pour l'Auto-Amélioration
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
papers.authors: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
papers.abstract
Les progrès dans de nombreux domaines de tâches émergent de révisions répétées des tentatives de solutions précédentes. Former des agents capables de s’améliorer de manière fiable au fil de telles séquences lors de l’inférence est un objectif naturel pour l’apprentissage par renforcement (RL). Cependant, l’approche naïve suppose une profondeur d’itération maximale fixe, ce qui peut être à la fois coûteux et arbitraire. Nous présentons l’Itération Exploratoire (ExIt), une famille de méthodes RL d’autocurriculum qui exploite directement la structure récurrente des tâches d’auto-amélioration pour entraîner des LLM à effectuer une auto-amélioration multi-étapes lors de l’inférence, tout en ne s’entraînant que sur les itérations à une étape les plus informatives. ExIt développe un espace de tâches en échantillonnant de manière sélective les historiques partiels intermédiaires les plus informatifs rencontrés lors d’un épisode pour poursuivre l’itération, traitant ces points de départ comme de nouvelles instances de tâches d’auto-itération pour entraîner une politique d’auto-amélioration. ExIt peut en outre s’associer à des mécanismes d’exploration explicites pour maintenir une plus grande diversité de tâches. À travers plusieurs domaines, incluant les mathématiques compétitives, l’utilisation d’outils multi-tours et l’ingénierie du machine learning, nous démontrons que les stratégies ExIt, partant d’une seule ou de plusieurs instances de tâches, peuvent produire des politiques présentant une forte auto-amélioration lors de l’inférence sur des instances de tâches réservées, ainsi que la capacité d’itérer vers des performances supérieures sur un budget d’étapes dépassant la profondeur d’itération moyenne rencontrée pendant l’entraînement.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.