Automatische Forschung mit spezialisierten Agenten entwickelt effektive und nicht-triviale Trainingsrezepte

Zusammenfassung

Wir untersuchen Auto-Research als eine geschlossene empirische Schleife, die durch externe Messungen angetrieben wird. Jeder eingereichte Versuch umfasst eine Hypothese, eine ausführbare Code-Änderung, ein ergebnisbezogenes Messergebnis des Evaluators sowie Feedback, das den nächsten Vorschlag formt. Das Ergebnis ist keine generierte Arbeit oder ein einzelner Modell-Checkpoint, sondern eine nachvollziehbare Abfolge von Vorschlägen, Code-Diffs, Experimenten, Bewertungen und Fehlerkennzeichnungen. Wir implementieren diese Schleife mit spezialisierten Agenten, die Rezept-Oberflächen partitionieren und gemessene Abstammungslinien über Versuche hinweg teilen. Die zentrale empirische Erkenntnis ist, dass Abstammungsfeedback es Agenten ermöglicht, Ergebnisse des Evaluators – einschließlich Abstürzen, Budgetüberschreitungen, Größenfehlern und verfehlten Genauigkeitsgrenzen – in späteren programmweiten Rezeptänderungen umzusetzen, anstatt in einmaligen Vorschlägen. Über 1.197 Hauptversuche sowie 600 Parameter-Golf-Kontrollversuche hinweg – nach einmaliger Einrichtung und Inbetriebnahme – wählten Menschen keine Vorschläge aus, bearbeiteten keine Rezepte, überschrieben Bewertungen oder reparierten fehlgeschlagene Versuche während der Suche. In den drei Hauptläufen reduziert derselbe eingereichte-Versuch-Kreislauf die Parameter-Golf-Validierungs-bpb um 0,81 %, steigert NanoChat-D12 CORE um 38,7 % und verringert die CIFAR-10 Airbench96-Wanduhrzeit um 4,59 %, wobei jede Aufgabe durch ihren eigenen externen Evaluator und Legalitätsprüfungen gemessen wird. Die Aufzeichnung enthält ein strenges Architektur-Domain-Audit von 157 Einreichungen der Hauptläufe sowie Programmumformulierungen wie eine Änderung des NanoChat-Aufmerksamkeits-Kernel-Pfads. Innerhalb dieses Rahmens schreibt die Schleife autonom Code, reicht Experimente ein, verarbeitet Feedback, wendet bekannte Techniken innerhalb jeder Umgebung an und kombiniert diese und verbessert öffentliche Ausgangsrezepte.

English

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

Automatische Forschung mit spezialisierten Agenten entwickelt effektive und nicht-triviale Trainingsrezepte

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Zusammenfassung

Support