ChatPaper.aiChatPaper

AutoResearch-RL: Agenti di Reinforcement Learning con Auto-Valutazione Continua per la Scoperta Autonoma di Architetture Neurali

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Autori: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Abstract

Presentiamo AutoResearch-RL, un framework in cui un agente di apprendimento per rinforzo conduce ricerche aperte sull'architettura neurale e sugli iperparametri senza supervisione umana, operando in modo perpetuo fino a quando un oracolo di terminazione segnala la convergenza o l'esaurimento delle risorse. Ad ogni passo, l'agente propone una modifica al codice di uno script di addestramento target, la esegue con un budget di tempo fisso di clock wall, osserva una ricompensa scalare derivata dai bit-per-byte di validazione (val-bpb) e aggiorna la propria policy tramite Proximal Policy Optimisation (PPO). L'intuizione progettuale chiave è la separazione di tre aspetti: (i) un ambiente congelato (pipeline dei dati, protocollo di valutazione e costanti) che garantisce un confronto equo tra gli esperimenti; (ii) un file target modificabile (train.py) che rappresenta lo stato modificabile dell'agente; e (iii) un meta-apprendista (l'agente RL stesso) che accumula una traiettoria crescente di risultati sperimentali e li utilizza per informare le proposte successive. Formalizziamo questo processo come un Processo Decisionale di Markov, deriviamo garanzie di convergenza sotto ipotesi moderate e dimostriamo empiricamente, su un benchmark di pre-addestramento nanochat su una singola GPU, che AutoResearch-RL scopre configurazioni che eguagliano o superano le baseline ottimizzate manualmente dopo circa 300 iterazioni notturne, senza alcun intervento umano nel ciclo.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF174March 26, 2026