ChatPaper.aiChatPaper

AutoResearch-RL: Perpetuell selbst-evaluierende Reinforcement-Learning-Agenten für autonome Entdeckung neuronaler Architekturen

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Autoren: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Zusammenfassung

Wir stellen AutoResearch-RL vor, ein Framework, in dem ein Reinforcement-Learning-Agent ohne menschliche Aufsicht offene Forschung zu neuronaler Architektur und Hyperparametern durchführt und dabei kontinuierlich läuft, bis ein Abbruchorakel Konvergenz oder Ressourcenerschöpfung signalisiert. In jedem Schritt schlägt der Agent eine Codeänderung an einem Ziel-Trainingsskript vor, führt diese unter einem festen Zeitbudget (Wall Clock Time) aus, beobachtet eine skalare Belohnung, die aus der Validierungs-Bits-per-Byte (val-bpb) abgeleitet wird, und aktualisiert seine Policy mittels Proximal Policy Optimization (PPO). Die zentrale Gestaltungsidee ist die Trennung von drei Aspekten: (i) eine eingefrorene Umgebung (Datenpipeline, Evaluierungsprotokoll und Konstanten), die einen fairen experimentübergreifenden Vergleich gewährleistet; (ii) eine veränderbare Zieldatei (train.py), die den editierbaren Zustand des Agents repräsentiert; und (iii) ein Meta-Learner (der RL-Agent selbst), der eine wachsende Trajektorie von Experimentergebnissen akkumuliert und diese zur Informationsgewinnung für nachfolgende Vorschläge nutzt. Wir formalisieren dies als Markov-Entscheidungsprozess, leiten unter milden Annahmen Konvergenzgarantien her und zeigen empirisch an einem Nanochat-Pretraining-Benchmark auf einer einzelnen GPU, dass AutoResearch-RL nach etwa 300 nächtlichen Iterationen Konfigurationen entdeckt, die handoptimierte Baselines erreichen oder übertreffen – ohne menschliche Beteiligung im Kreislauf.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF154March 16, 2026