La Recherche Automatisée avec des Agents Spécialisés Développe des Recettes d'Entraînement Efficaces et Non Triviales

Résumé

Nous étudions la recherche automatisée comme une boucle empirique fermée pilotée par des mesures externes. Chaque essai soumis comporte une hypothèse, une modification de code exécutable, un résultat détenu par l'évaluateur et un retour qui façonne la proposition suivante. Le résultat n'est pas un article généré ou un point de contrôle unique de modèle, mais une trajectoire vérifiable de propositions, différences de code, expériences, scores et étiquettes d'échec. Nous instancions cette boucle avec des agents spécialisés qui partitionnent les surfaces de recettes et partagent une lignée mesurée entre les essais. Le principal résultat empirique est que le retour de lignée permet aux agents de transformer les résultats des évaluateurs - incluant les plantages, les dépassements de budget, les échecs de taille et les non-atteintes des seuils de précision - en modifications ultérieures de recettes au niveau programme plutôt qu'en suggestions ponctuelles. Sur 1 197 essais principaux plus 600 essais de contrôle Parameter Golf après une configuration et un lancement uniques, les humains n'ont pas choisi de propositions, modifié des recettes, annulé des scores ou réparé des essais échoués durant la recherche. Dans les trois séries principales, la même boucle d'essais soumis réduit le bpb de validation de Parameter Golf de 0,81 %, augmente le CORE de NanoChat-D12 de 38,7 % et réduit le temps wallclock de CIFAR-10 Airbench96 de 4,59 %, chaque tâche étant mesurée par son propre évaluateur externe et des vérifications de légalité. La trace inclut un audit strict du domaine architectural de 157 soumissions principales et des réécritures de programme telles qu'un changement de chemin du noyau d'attention de NanoChat. Dans ce cadre, la boucle écrit autonome du code, soumet des expériences, absorbe les retours, applique et combine des techniques connues dans chaque environnement, et améliore les recettes de départ publiques.

English

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

La Recherche Automatisée avec des Agents Spécialisés Développe des Recettes d'Entraînement Efficaces et Non Triviales

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Résumé

Support