Inicialización de Espacios de Tareas para la Automejora

Resumen

El progreso en muchos dominios de tareas surge de revisiones repetidas de intentos previos de solución. Entrenar agentes que puedan mejorar de manera confiable a lo largo de tales secuencias durante el tiempo de inferencia es un objetivo natural para el aprendizaje por refuerzo (RL, por sus siglas en inglés). Sin embargo, el enfoque ingenuo asume una profundidad máxima fija de iteración, lo cual puede ser tanto costoso como arbitrario. Presentamos Iteración Exploratoria (ExIt), una familia de métodos de RL con autocurrículo que explota directamente la estructura recurrente de las tareas de auto-mejora para entrenar modelos de lenguaje grandes (LLMs) a realizar auto-mejora de múltiples pasos durante el tiempo de inferencia, mientras solo se entrenan en las iteraciones de un solo paso más informativas. ExIt expande un espacio de tareas al muestrear selectivamente los historiales intermedios y parciales más informativos encontrados durante un episodio para continuar la iteración, tratando estos puntos de partida como nuevas instancias de tareas de auto-iteración para entrenar una política de auto-mejora. ExIt puede además combinarse con mecanismos de exploración explícita para mantener una mayor diversidad de tareas. A través de varios dominios, que incluyen matemáticas competitivas, uso de herramientas de múltiples turnos e ingeniería de aprendizaje automático, demostramos que las estrategias de ExIt, comenzando desde una sola o muchas instancias de tareas, pueden producir políticas que exhiben una fuerte auto-mejora durante el tiempo de inferencia en instancias de tareas retenidas, y la capacidad de iterar hacia un mayor rendimiento dentro de un presupuesto de pasos que se extiende más allá de la profundidad promedio de iteración encontrada durante el entrenamiento.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Inicialización de Espacios de Tareas para la Automejora

Bootstrapping Task Spaces for Self-Improvement

Resumen

Support