Amorçage des Espaces de Tâches pour l'Auto-Amélioration

papers.abstract

Les progrès dans de nombreux domaines de tâches émergent de révisions répétées des tentatives de solutions précédentes. Former des agents capables de s’améliorer de manière fiable au fil de telles séquences lors de l’inférence est un objectif naturel pour l’apprentissage par renforcement (RL). Cependant, l’approche naïve suppose une profondeur d’itération maximale fixe, ce qui peut être à la fois coûteux et arbitraire. Nous présentons l’Itération Exploratoire (ExIt), une famille de méthodes RL d’autocurriculum qui exploite directement la structure récurrente des tâches d’auto-amélioration pour entraîner des LLM à effectuer une auto-amélioration multi-étapes lors de l’inférence, tout en ne s’entraînant que sur les itérations à une étape les plus informatives. ExIt développe un espace de tâches en échantillonnant de manière sélective les historiques partiels intermédiaires les plus informatifs rencontrés lors d’un épisode pour poursuivre l’itération, traitant ces points de départ comme de nouvelles instances de tâches d’auto-itération pour entraîner une politique d’auto-amélioration. ExIt peut en outre s’associer à des mécanismes d’exploration explicites pour maintenir une plus grande diversité de tâches. À travers plusieurs domaines, incluant les mathématiques compétitives, l’utilisation d’outils multi-tours et l’ingénierie du machine learning, nous démontrons que les stratégies ExIt, partant d’une seule ou de plusieurs instances de tâches, peuvent produire des politiques présentant une forte auto-amélioration lors de l’inférence sur des instances de tâches réservées, ainsi que la capacité d’itérer vers des performances supérieures sur un budget d’étapes dépassant la profondeur d’itération moyenne rencontrée pendant l’entraînement.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Amorçage des Espaces de Tâches pour l'Auto-Amélioration

Bootstrapping Task Spaces for Self-Improvement

papers.abstract

Support