ChatPaper.aiChatPaper

AutoResearch-RL: Самокритичные агенты обучения с подкреплением для автономного открытия нейросетевых архитектур

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Авторы: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Аннотация

Мы представляем AutoResearch-RL — фреймворк, в котором агент обучения с подкреплением проводит открытые исследования нейросетевых архитектур и гиперпараметров без участия человека, работая непрерывно до тех пор, пока критерий останова не сигнализирует о сходимости или исчерпании ресурсов. На каждом шаге агент предлагает модификацию кода целевого скрипта обучения, выполняет его в рамках фиксированного бюджета машинного времени, наблюдает скалярное вознаграждение, вычисленное на основе валидационных бит-на-байт (val-bpb), и обновляет свою политику с помощью проксимального оптимизатора политик (PPO). Ключевая идея проектирования заключается в разделении трёх аспектов: (i) замороженное окружение (конвейер данных, протокол оценки и константы), которое гарантирует корректное сравнение между экспериментами; (ii) изменяемый целевой файл (train.py), представляющий редактируемое состояние агента; и (iii) мета-обучающийся (сам RL-агент), который накапливает растущую траекторию результатов экспериментов и использует их для формирования последующих предложений. Мы формализуем это как марковский процесс принятия решений, выводим гарантии сходимости при слабых предположениях и эмпирически демонстрируем на бенчмарке предобучения nanochat с одной GPU, что AutoResearch-RL обнаруживает конфигурации, которые соответствуют или превосходят ручно настроенные базовые уровни после примерно 300 ночных итераций, без участия человека в цикле.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF154March 16, 2026