Самообучение через бутстраппинг пространств задач
Bootstrapping Task Spaces for Self-Improvement
September 4, 2025
Авторы: Minqi Jiang, Andrei Lupu, Yoram Bachrach
cs.AI
Аннотация
Прогресс во многих предметных областях достигается за счет многократных пересмотров предыдущих попыток решения. Обучение агентов, которые могут надежно самосовершенствоваться в таких последовательностях во время выполнения, является естественной целью для обучения с подкреплением (RL). Однако наивный подход предполагает фиксированную максимальную глубину итераций, что может быть как затратным, так и произвольным. Мы представляем Exploratory Iteration (ExIt) — семейство методов автокуррикулума RL, которые напрямую используют рекуррентную структуру задач самосовершенствования для обучения языковых моделей (LLM) выполнению многошагового самосовершенствования во время выполнения, при этом обучаясь только на наиболее информативных одношаговых итерациях. ExIt расширяет пространство задач, выборочно выбирая наиболее информативные промежуточные частичные истории, встречающиеся в ходе эпизода, для продолжения итераций, рассматривая эти начальные точки как новые экземпляры задач самосовершенствования для обучения политики самосовершенствования. ExIt может дополнительно сочетаться с явными механизмами исследования для поддержания большего разнообразия задач. В нескольких областях, включая соревновательную математику, многошаговое использование инструментов и инженерию машинного обучения, мы демонстрируем, что стратегии ExIt, начиная с одного или множества экземпляров задач, могут создавать политики, демонстрирующие сильное самосовершенствование во время выполнения на удерживаемых экземплярах задач, а также способность итерировать в сторону повышения производительности в рамках бюджета шагов, выходящего за среднюю глубину итераций, встречающуюся во время обучения.
English
Progress in many task domains emerges from repeated revisions to previous
solution attempts. Training agents that can reliably self-improve over such
sequences at inference-time is a natural target for reinforcement learning
(RL), yet the naive approach assumes a fixed maximum iteration depth, which can
be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family
of autocurriculum RL methods that directly exploits the recurrent structure of
self-improvement tasks to train LLMs to perform multi-step self-improvement at
inference-time while only training on the most informative single-step
iterations. ExIt grows a task space by selectively sampling the most
informative intermediate, partial histories encountered during an episode for
continued iteration, treating these starting points as new self-iteration task
instances to train a self-improvement policy. ExIt can further pair with
explicit exploration mechanisms to sustain greater task diversity. Across
several domains, encompassing competition math, multi-turn tool-use, and
machine learning engineering, we demonstrate that ExIt strategies, starting
from either a single or many task instances, can produce policies exhibiting
strong inference-time self-improvement on held-out task instances, and the
ability to iterate towards higher performance over a step budget extending
beyond the average iteration depth encountered during training.