ChatPaper.aiChatPaper

AutoResearch-RL: Agentes de Aprendizagem por Reforço com Autoavaliação Contínua para Descoberta Autônoma de Arquiteturas Neurais

AutoResearch-RL: Perpetual Self-Evaluating Reinforcement Learning Agents for Autonomous Neural Architecture Discovery

March 7, 2026
Autores: Nilesh Jain, Rohit Yadav, Sagar Kotian, Claude AI
cs.AI

Resumo

Apresentamos o AutoResearch-RL, um framework no qual um agente de aprendizagem por reforço conduz pesquisas abertas de arquitetura neural e hiperparâmetros sem supervisão humana, executando-se perpetuamente até que um oráculo de terminação sinalize convergência ou esgotamento de recursos. A cada passo, o agente propõe uma modificação de código a um script de treinamento alvo, executa-o sob um orçamento fixo de tempo de parede, observa uma recompensa escalar derivada da métrica de bits-por-byte de validação (val-bpb) e atualiza sua política via Otimização de Políticas Proximais (PPO). O insight fundamental do design é a separação de três aspectos: (i) um ambiente congelado (pipeline de dados, protocolo de avaliação e constantes) que garante uma comparação justa entre experimentos; (ii) um arquivo alvo mutável (train.py) que representa o estado editável do agente; e (iii) um meta-aprendiz (o próprio agente de RL) que acumula uma trajetória crescente de resultados experimentais e os utiliza para fundamentar propostas subsequentes. Formalizamos isso como um Processo de Decisão Markoviana, derivamos garantias de convergência sob suposições brandas e demonstramos empiricamente, em um benchmark de pré-treinamento nanochat com uma única GPU, que o AutoResearch-RL descobre configurações que igualam ou superam baselines ajustadas manualmente após aproximadamente 300 iterações noturnas, sem qualquer intervenção humana no ciclo.
English
We present AutoResearch-RL, a framework in which a reinforcement learning agent conducts open-ended neural architecture and hyperparameter research without human supervision, running perpetually until a termination oracle signals convergence or resource exhaustion. At each step the agent proposes a code modification to a target training script, executes it under a fixed wall clock time budget, observes a scalar reward derived from validation bits-per-byte (val-bpb), and updates its policy via Proximal Policy Optimisation (PPO). The key design insight is the separation of three concerns: (i) a frozen environment (data pipeline, evaluation protocol, and constants) that guarantees fair cross-experiment comparison; (ii) a mutable target file (train.py) that represents the agent's editable state; and (iii) a meta-learner (the RL agent itself) that accumulates a growing trajectory of experiment outcomes and uses them to inform subsequent proposals. We formalise this as a Markov Decision Process, derive convergence guarantees under mild assumptions, and demonstrate empirically on a single GPU nanochat pretraining benchmark that AutoResearch-RL discovers configurations that match or exceed hand-tuned baselines after approximately 300 overnight iterations, with no human in the loop.
PDF174March 26, 2026