ChatPaper.aiChatPaper

AutoResearch-RL: Permanent Zelf-Evaluerende Reinforcement Learning-Agenten voor Autonome Neurale Architectuurontdekking

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Auteurs: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Samenvatting

Wij presenteren AutoResearch-RL, een raamwerk waarin een reinforcement learning-agent zonder menselijk toezicht open-ended onderzoek doet naar neurale netwerkarchitectuur en hyperparameters. Het proces draait voortdurend door totdat een stop-orakel convergentie of uitputting van resources signaleert. Bij elke stap stelt de agent een codewijziging voor een doel-trainingsscript voor, voert deze uit binnen een vast budget aan wandkloktijd, observeert een scalaire beloning afgeleid van de validatie bits-per-byte (val-bpb), en werkt zijn beleid bij via Proximal Policy Optimisation (PPO). Het belangrijkste ontwerp-inzicht is de scheiding van drie aspecten: (i) een bevroren omgeving (datapijplijn, evaluatieprotocol en constanten) die een eerlijke vergelijking tussen experimenten garandeert; (ii) een muteerbaar doelbestand (train.py) dat de bewerkbare staat van de agent vertegenwoordigt; en (iii) een meta-leerder (de RL-agent zelf) die een groeiende traject van experimentresultaten accumuleert en deze gebruikt om volgende voorstellen te informeren. Wij formaliseren dit als een Markov-beslissingsproces, leiden convergentiegaranties af onder milde aannames, en tonen empirisch aan op een nanochat pre-trainingsbenchmark met een enkele GPU dat AutoResearch-RL configuraties ontdekt die handmatig afgestelde basislijnen evenaren of overtreffen na ongeveer 300 nachtelijke iteraties, zonder menselijke tussenkomst.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF174March 26, 2026