Automatisch onderzoek met gespecialiseerde agents ontwikkelt effectieve en niet-triviale trainingsrecepten.

Samenvatting

Wij benaderen automatisch onderzoek als een gesloten empirische lus aangedreven door externe meting. Elke ingediende trial bevat een hypothese, een uitvoerbare code-aanpassing, een door de evaluator vastgestelde uitkomst en feedback die de volgende voorstel vormgeeft. De output is niet een gegenereerd artikel of een enkel modelcheckpoint, maar een auditeerbaar traject van voorstellen, code-diffs, experimenten, scores en faallabels. Wij concretiseren deze lus met gespecialiseerde agents die receptoppervlakken partitioneren en gemeten afstamming tussen trials delen. De centrale empirische bevinding is dat afstammingsfeedback agents in staat stelt om uitkomsten van de evaluator – inclusief crashes, budgetoverschrijdingen, groottetekortkomingen en nauwkeurigheidsdrempelmissers – om te zetten in latere programma-niveau receptaanpassingen in plaats van eenmalige suggesties. Over 1.197 headline-run trials plus 600 Parameter Golf-controletrials, na eenmalige setup en lancering, kozen mensen geen voorstellen, wijzigden ze geen recepten, override-den ze scores of repareerden ze mislukte trials tijdens de zoektocht. In de drie hoofd-runs reduceert dezelfde ingediende-trial-lus de Parameter Golf validatie-bpb met 0,81%, verhoogt het NanoChat-D12 CORE met 38,7% en reduceert de CIFAR-10 Airbench96 wallclock met 4,59%, waarbij elke taak gemeten wordt door zijn eigen externe evaluator en legaliteitscontroles. De trace omvat een strikte architectuur-domeinaudit van 157 headline-run inzendingen en programmaherschrijvingen zoals een NanoChat attention-kernel padwijziging. Binnen dit bereik schrijft de lus autonoom code, dient experimenten in, absorbeert feedback, past bekende technieken toe en combineert deze binnen elke omgeving, en verbetert publieke startrecepten.

English

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

Automatisch onderzoek met gespecialiseerde agents ontwikkelt effectieve en niet-triviale trainingsrecepten.

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Samenvatting

Support