Avvio di Spazi di Attività per l'Auto-Miglioramento

Abstract

Il progresso in molti domini di attività emerge da ripetute revisioni di precedenti tentativi di soluzione. Addestrare agenti in grado di migliorarsi in modo affidabile attraverso tali sequenze durante il tempo di inferenza è un obiettivo naturale per l'apprendimento per rinforzo (RL), ma l'approccio ingenuo presuppone una profondità massima di iterazione fissa, che può essere sia costosa che arbitraria. Presentiamo Exploratory Iteration (ExIt), una famiglia di metodi RL di autocurriculum che sfrutta direttamente la struttura ricorrente dei compiti di auto-miglioramento per addestrare LLM a eseguire un miglioramento multi-step durante il tempo di inferenza, addestrandosi solo sulle iterazioni a singolo passo più informative. ExIt espande uno spazio di compiti campionando selettivamente le storie intermedie e parziali più informative incontrate durante un episodio per continuare l'iterazione, trattando questi punti di partenza come nuove istanze di compiti di auto-iterazione per addestrare una politica di auto-miglioramento. ExIt può inoltre abbinarsi a meccanismi di esplorazione esplicita per sostenere una maggiore diversità di compiti. In diversi domini, che comprendono la matematica competitiva, l'uso di strumenti multi-turn e l'ingegneria del machine learning, dimostriamo che le strategie ExIt, partendo da una singola o da molte istanze di compiti, possono produrre politiche che mostrano un forte auto-miglioramento durante il tempo di inferenza su istanze di compiti tenute da parte, e la capacità di iterare verso prestazioni più elevate su un budget di passi che si estende oltre la profondità media di iterazione incontrata durante l'addestramento.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Avvio di Spazi di Attività per l'Auto-Miglioramento

Bootstrapping Task Spaces for Self-Improvement

Abstract

Support