Inicialización de Espacios de Tareas para la Automejora
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
Autores: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
Resumen
El progreso en muchos dominios de tareas surge de revisiones repetidas de intentos previos de solución. Entrenar agentes que puedan mejorar de manera confiable a lo largo de tales secuencias durante el tiempo de inferencia es un objetivo natural para el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, el enfoque ingenuo asume una profundidad máxima fija de iteración, lo cual puede ser tanto costoso como arbitrario. Presentamos Iteración Exploratoria (ExIt), una familia de métodos de RL con autocurrículo que explota directamente la estructura recurrente de las tareas de auto-mejora para entrenar modelos de lenguaje grandes (LLMs) a realizar auto-mejora de múltiples pasos durante el tiempo de inferencia, mientras solo se entrenan en las iteraciones de un solo paso más informativas. ExIt expande un espacio de tareas al muestrear selectivamente los historiales intermedios y parciales más informativos encontrados durante un episodio para continuar la iteración, tratando estos puntos de partida como nuevas instancias de tareas de auto-iteración para entrenar una política de auto-mejora. ExIt puede además combinarse con mecanismos de exploración explícita para mantener una mayor diversidad de tareas. A través de varios dominios, que incluyen matemáticas competitivas, uso de herramientas de múltiples turnos e ingeniería de aprendizaje automático, demostramos que las estrategias de ExIt, comenzando desde una sola o muchas instancias de tareas, pueden producir políticas que exhiben una fuerte auto-mejora durante el tiempo de inferencia en instancias de tareas retenidas, y la capacidad de iterar hacia un mayor rendimiento dentro de un presupuesto de pasos que se extiende más allá de la profundidad promedio de iteración encontrada durante el entrenamiento.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.