Самообучение через бутстраппинг пространств задач

Аннотация

Прогресс во многих предметных областях достигается за счет многократных пересмотров предыдущих попыток решения. Обучение агентов, которые могут надежно самосовершенствоваться в таких последовательностях во время выполнения, является естественной целью для обучения с подкреплением (RL). Однако наивный подход предполагает фиксированную максимальную глубину итераций, что может быть как затратным, так и произвольным. Мы представляем Exploratory Iteration (ExIt) — семейство методов автокуррикулума RL, которые напрямую используют рекуррентную структуру задач самосовершенствования для обучения языковых моделей (LLM) выполнению многошагового самосовершенствования во время выполнения, при этом обучаясь только на наиболее информативных одношаговых итерациях. ExIt расширяет пространство задач, выборочно выбирая наиболее информативные промежуточные частичные истории, встречающиеся в ходе эпизода, для продолжения итераций, рассматривая эти начальные точки как новые экземпляры задач самосовершенствования для обучения политики самосовершенствования. ExIt может дополнительно сочетаться с явными механизмами исследования для поддержания большего разнообразия задач. В нескольких областях, включая соревновательную математику, многошаговое использование инструментов и инженерию машинного обучения, мы демонстрируем, что стратегии ExIt, начиная с одного или множества экземпляров задач, могут создавать политики, демонстрирующие сильное самосовершенствование во время выполнения на удерживаемых экземплярах задач, а также способность итерировать в сторону повышения производительности в рамках бюджета шагов, выходящего за среднюю глубину итераций, встречающуюся во время обучения.

English

Progress in many task domains emerges from repeated revisions to previous solution attempts. Training agents that can reliably self-improve over such sequences at inference-time is a natural target for reinforcement learning (RL), yet the naive approach assumes a fixed maximum iteration depth, which can be both costly and arbitrary. We present Exploratory Iteration (ExIt), a family of autocurriculum RL methods that directly exploits the recurrent structure of self-improvement tasks to train LLMs to perform multi-step self-improvement at inference-time while only training on the most informative single-step iterations. ExIt grows a task space by selectively sampling the most informative intermediate, partial histories encountered during an episode for continued iteration, treating these starting points as new self-iteration task instances to train a self-improvement policy. ExIt can further pair with explicit exploration mechanisms to sustain greater task diversity. Across several domains, encompassing competition math, multi-turn tool-use, and machine learning engineering, we demonstrate that ExIt strategies, starting from either a single or many task instances, can produce policies exhibiting strong inference-time self-improvement on held-out task instances, and the ability to iterate towards higher performance over a step budget extending beyond the average iteration depth encountered during training.

Самообучение через бутстраппинг пространств задач

Bootstrapping Task Spaces for Self-Improvement

Аннотация

Support