ChatPaper.aiChatPaper

AutoResearch-RL: Agentes de Aprendizaje por Refuerzo de Autoevaluación Perpetua para el Descubrimiento Autónomo de Arquitecturas Neuronales

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Autores: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Resumen

Presentamos AutoResearch-RL, un marco en el que un agente de aprendizaje por refuerzo lleva a cabo investigación abierta en arquitecturas neuronales e hiperparámetros sin supervisión humana, ejecutándose de forma perpetua hasta que un oráculo de terminación señala convergencia o agotamiento de recursos. En cada paso, el agente propone una modificación de código a un script de entrenamiento objetivo, lo ejecuta bajo un presupuesto fijo de tiempo de pared, observa una recompensa escalar derivada de los bits por byte de validación (val-bpb) y actualiza su política mediante Optimización de Políticas Proximales (PPO). La idea clave del diseño es la separación de tres aspectos: (i) un entorno congelado (canalización de datos, protocolo de evaluación y constantes) que garantiza una comparación justa entre experimentos; (ii) un archivo objetivo mutable (train.py) que representa el estado editable del agente; y (iii) un meta-aprendiz (el propio agente de RL) que acumula una trayectoria creciente de resultados experimentales y los utiliza para informar propuestas posteriores. Formalizamos esto como un Proceso de Decisión Markoviano, derivamos garantías de convergencia bajo supuestos moderados, y demostramos empíricamente en un benchmark de preentrenamiento nanochat con una sola GPU que AutoResearch-RL descubre configuraciones que igualan o superan líneas base ajustadas manualmente después de aproximadamente 300 iteraciones nocturnas, sin intervención humana en el ciclo.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF154March 16, 2026