La Investigación Automatizada con Agentes Especializados Desarrolla Recetas de Entrenamiento Efectivas y No Triviales

Resumen

Estudiamos la investigación automática como un bucle empírico cerrado impulsado por medición externa. Cada prueba enviada contiene una hipótesis, una edición de código ejecutable, un resultado propiedad del evaluador y una retroalimentación que moldea la siguiente propuesta. El resultado no es un artículo generado o un único punto de control de modelo, sino una trayectoria auditable de propuestas, diferencias de código (diffs), experimentos, puntuaciones y etiquetas de fallo. Instanciamos este bucle con agentes especialistas que particionan los espacios de recetas (recipe surfaces) y comparten un linaje medido entre pruebas. El hallazgo empírico central es que la retroalimentación del linaje permite a los agentes convertir los resultados del evaluador —incluyendo cierres inesperados (crashes), excesos de presupuesto, fallos de tamaño y omisiones de compuertas de precisión (accuracy-gate misses)— en ediciones posteriores de recetas a nivel de programa, en lugar de sugerencias únicas (one-shot). A lo largo de 1.197 pruebas de ejecución principal (headline-run) más 600 pruebas de control de Parameter Golf, tras una configuración y lanzamiento únicos, los humanos no eligieron propuestas, editaron recetas, anularon puntuaciones ni repararon pruebas fallidas durante la búsqueda. En las tres ejecuciones principales, el mismo bucle de prueba enviada reduce el bpb de validación de Parameter Golf en un 0,81 %, aumenta el CORE de NanoChat-D12 en un 38,7 % y reduce el tiempo de reloj (wallclock) de CIFAR-10 Airbench96 en un 4,59 %, midiendo cada tarea mediante su propio evaluador externo y comprobaciones de legalidad. La traza incluye una auditoría estricta del dominio arquitectónico de 157 envíos de la ejecución principal y reescrituras de programa, como un cambio de ruta del núcleo de atención (attention-kernel) en NanoChat. Dentro de este alcance, el bucle escribe código de forma autónoma, envía experimentos, absorbe retroalimentación, aplica y combina técnicas conocidas dentro de cada entorno, y mejora las recetas públicas de partida.

English

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

La Investigación Automatizada con Agentes Especializados Desarrolla Recetas de Entrenamiento Efectivas y No Triviales

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Resumen

Support