ChatPaper.aiChatPaper

AutoResearch-RL:自律的なニューラルアーキテクチャ探索のための永続的自己評価型強化学習エージェント

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
著者: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

要旨

本論文ではAutoResearch-RLを提案する。これは、強化学習エージェントが人間の監督なしにオープンエンドなニューラルアーキテクチャとハイパーパラメータの研究を実施し、終了オラクルが収束またはリソース枯渇を通知するまで永続的に実行するフレームワークである。各ステップで、エージェントは対象の訓練スクリプトに対するコード修正を提案し、固定されたウォールクロック時間予算の下でそれを実行し、検証ビット毎バイト(val-bpb)から導出されたスカラー報酬を観測し、近接方策最適化(PPO)を用いて方策を更新する。 重要な設計上の洞察は、以下の3つの関心の分離にある。(i) 実験間の公平な比較を保証する固定環境(データパイプライン、評価プロトコル、定数)、(ii) エージェントが編集可能な状態を表す変更可能な対象ファイル(train.py)、(iii) 実験結果の軌跡を蓄積し、その後の提案に活用するメタ学習器(RLエージェント自体)である。 これをマルコフ決定過程として定式化し、穏やかな仮定の下で収束保証を導出する。さらに、単一GPUを用いたナノチャット事前学習ベンチマークにおける実証実験により、AutoResearch-RLが約300回の夜間反復後に、人手で調整されたベースラインを匹敵または凌駕する設定を発見できることを示す。この過程に人間は一切関与しない。
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF154March 16, 2026