Avvio di Spazi di Attività per l'Auto-Miglioramento
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
Autori: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
Abstract
Il progresso in molti domini di attività emerge da ripetute revisioni di precedenti tentativi di soluzione. Addestrare agenti in grado di migliorarsi in modo affidabile attraverso tali sequenze durante il tempo di inferenza è un obiettivo naturale per l'apprendimento per rinforzo (RL), ma l'approccio ingenuo presuppone una profondità massima di iterazione fissa, che può essere sia costosa che arbitraria. Presentiamo Exploratory Iteration (ExIt), una famiglia di metodi RL di autocurriculum che sfrutta direttamente la struttura ricorrente dei compiti di auto-miglioramento per addestrare LLM a eseguire un miglioramento multi-step durante il tempo di inferenza, addestrandosi solo sulle iterazioni a singolo passo più informative. ExIt espande uno spazio di compiti campionando selettivamente le storie intermedie e parziali più informative incontrate durante un episodio per continuare l'iterazione, trattando questi punti di partenza come nuove istanze di compiti di auto-iterazione per addestrare una politica di auto-miglioramento. ExIt può inoltre abbinarsi a meccanismi di esplorazione esplicita per sostenere una maggiore diversità di compiti. In diversi domini, che comprendono la matematica competitiva, l'uso di strumenti multi-turn e l'ingegneria del machine learning, dimostriamo che le strategie ExIt, partendo da una singola o da molte istanze di compiti, possono produrre politiche che mostrano un forte auto-miglioramento durante il tempo di inferenza su istanze di compiti tenute da parte, e la capacità di iterare verso prestazioni più elevate su un budget di passi che si estende oltre la profondità media di iterazione incontrata durante l'addestramento.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.