Автоматизированное исследование со специализированными агентами разрабатывает эффективные и нетривиальные рецепты обучения.

Аннотация

Мы рассматриваем автоматизированные исследования как замкнутый эмпирический цикл, управляемый внешними измерениями. Каждое отправленное испытание содержит гипотезу, исполняемое изменение кода, результат, принадлежащий системе оценки, и обратную связь, которая формирует следующее предложение. Выходом процесса является не сгенерированная статья или единый контрольный пункт модели, а аудитируемая траектория предложений, различий в коде (diff), экспериментов, оценок и меток неудач. Мы реализуем этот цикл с помощью специализированных агентов, которые разделяют пространство рецептов (recipe surfaces) и обмениваются измеренной линией наследования (lineage) между испытаниями. Ключевым эмпирическим выводом является то, что обратная связь по линии наследования позволяет агентам преобразовывать результаты оценщика — включая аварийные завершения, превышения бюджета, провалы по размеру и невыполнение порогов точности — в последующие правки рецептов на уровне программ, а не в разовые предложения. В ходе 1197 основных испытаний и 600 контрольных испытаний Parameter Golf после единовременной настройки и запуска люди не выбирали предложения, не редактировали рецепты, не переопределяли оценки и не исправляли неудачные испытания в процессе поиска. В трёх основных прогонах один и тот же цикл отправки испытаний снижает валидационный bpb Parameter Golf на 0.81%, повышает показатель NanoChat-D12 CORE на 38.7% и сокращает время выполнения CIFAR-10 Airbench96 на 4.59%, причём каждая задача измеряется собственным внешним оценщиком и проверками на соответствие требованиям. Трассировка включает строгий аудит 157 отправленных материалов основных прогонов в области архитектуры и программные переработки, такие как изменение пути attention-ядра в NanoChat. В рамках данной области цикл автономно пишет код, отправляет эксперименты, усваивает обратную связь, применяет и комбинирует известные методики внутри каждой среды и улучшает публичные стартовые рецепты.

English

We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.

Автоматизированное исследование со специализированными агентами разрабатывает эффективные и нетривиальные рецепты обучения.

Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes

Аннотация

Support