AutoResearch-RL : Agents d'Apprentissage par Renforcement à Auto-Évaluation Perpétuelle pour la Découverte Autonome d'Architectures Neuronales

Résumé

Nous présentons AutoResearch-RL, un cadre dans lequel un agent d'apprentissage par renforcement mène de manière autonome une recherche ouverte sur l'architecture neuronale et les hyperparamètres, sans supervision humaine, fonctionnant perpétuellement jusqu'à ce qu'un oracle de terminaison signale une convergence ou l'épuisement des ressources. À chaque étape, l'agent propose une modification de code à apporter à un script d'entraînement cible, l'exécute avec un budget de temps calendaire fixe, observe une récompense scalaire dérivée du nombre de bits par octet de validation (val-bpb), et met à jour sa politique via l'Optimisation de Politique Proximale (PPO). L'idée clé de conception réside dans la séparation de trois préoccupations : (i) un environnement figé (pipeline de données, protocole d'évaluation et constantes) qui garantit une comparaison équitable entre les expériences ; (ii) un fichier cible mutable (train.py) qui représente l'état modifiable de l'agent ; et (iii) un méta-appreneur (l'agent RL lui-même) qui accumule une trajectoire croissante de résultats d'expériences et les utilise pour éclairer les propositions suivantes. Nous formalisons cela comme un Processus de Décision Markovien, dérivons des garanties de convergence sous des hypothèses faibles, et démontrons empiriquement sur un benchmark d'entraînement préalable nanochat avec une seule GPU qu'AutoResearch-RL découvre des configurations qui égalent ou surpassent les bases de référence réglées manuellement après environ 300 itérations exécutées de nuit, sans intervention humaine dans la boucle.

English

We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.

AutoResearch-RL : Agents d'Apprentissage par Renforcement à Auto-Évaluation Perpétuelle pour la Découverte Autonome d'Architectures Neuronales

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

Résumé

Support