AutoResearch-RL: 자율 신경 구조 발견을 위한 지속적 자가 평가 강화 학습 에이전트
AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery
March 7, 2026
저자: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI
초록
AutoResearch-RL을 소개합니다. 이는 인간의 감독 없이 강화 학습 에이전트가 개방형 신경망 구조 및 하이퍼파라미터 연구를 수행하는 프레임워크로, 종료 오라클이 수렴 또는 자원 고갈을 신호할 때까지 영구적으로 실행됩니다. 각 단계에서 에이전트는 대상 학습 스크립트에 대한 코드 수정을 제안하고, 고정된 벽시계 시간 예산 내에서 이를 실행하며, 검증 비트퍼바이트(val-bpb)에서 도출된 스칼라 보상을 관찰한 후, Proximal Policy Optimisation(PPO)을 통해 정책을 업데이트합니다.
핵심 설계 통찰은 세 가지 관심사의 분리에 있습니다: (i) 공정한 교차 실험 비교를 보장하는 고정 환경(데이터 파이프라인, 평가 프로토콜, 상수); (ii) 에이전트의 편집 가능한 상태를 나타내는 변경 가능한 대상 파일(train.py); (iii) 실험 결과의 증가하는 궤적을 축적하고 이를 후속 제안에 활용하는 메타 학습기(RL 에이전트 자체)입니다.
이를 Markov Decision Process로 공식화하고, 완만한 가정 하에서 수렴 보장을 유도하며, 단일 GPU 나노챗 프리트레이닝 벤치마크에서 경험적으로 입증한 바에 따르면 AutoResearch-RL은 약 300회의 야간 반복 후 인간 개입 없이 수동 튜닝 기준선을 맞추거나 능가하는 구성을 발견합니다.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO).
The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals.
We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.