専門家エージェントによる自動研究が、効果的で非自明な学習レシピを開発
Auto Research with Specialist Agents Develops Effective and Non-Trivial Training Recipes
May 7, 2026
著者: Jingjie Ning, Xiaochuan Li, Ji Zeng, Hao Kang, Chenyan Xiong
cs.AI
要旨
我々は、外部測定によって駆動される閉じた実証ループとしての自動研究を探求する。各投稿トライアルは、仮説、実行可能なコード編集、評価者が所有する結果、そして次の提案を形成するフィードバックを含む。出力は生成された論文や単一のモデルチェックポイントではなく、提案、コード差分、実験、スコア、失敗ラベルからなる監査可能な軌跡である。我々はこのループを、レシピ表面を分割しトライアル間で測定された系統を共有する専門家エージェントによって具現化する。中核的な実証的発見は、系統フィードバックによりエージェントがクラッシュ、予算超過、サイズ失敗、精度ゲート未達を含む評価結果を、単発の提案ではなく後続のプログラムレベルでのレシピ編集に転換できる点である。一度限りの設定と起動後の1,197件のヘッドラントライアルに加え600件のParameter Golf対照試験において、人間は提案の選択、レシピ編集、スコアの上書き、失敗した試験の修復を探索過程中に行わなかった。3つのヘッドランでは、同一の投稿トライアルループが、Parameter Golfの検証bpbを0.81%削減し、NanoChat-D12 COREを38.7%向上させ、CIFAR-10 Airbench96のウォールクロック時間を4.59%短縮した(各タスクは独自の外部評価器と合法性チェックで測定)。トレースには、157件のヘッドラン投稿に対する厳格なアーキテクチャ領域監査や、NanoChatのアテンションカーネルパス変更といったプログラム書き換えが含まれる。この範囲内でループは自律的にコードを記述し、実験を投稿し、フィードバックを吸収し、各環境内で既知技術を適用・結合し、公開開始レシピを改善する。
English
We study auto research as a closed empirical loop driven by external measurement. Each submitted trial carries a hypothesis, an executable code edit, an evaluator-owned outcome, and feedback that shapes the next proposal. The output is not a generated paper or a single model checkpoint, but an auditable trajectory of proposals, code diffs, experiments, scores, and failure labels. We instantiate this loop with specialist agents that partition recipe surfaces and share measured lineage across trials. The central empirical finding is that lineage feedback lets agents turn evaluator outcomes, including crashes, budget overruns, size failures, and accuracy-gate misses, into later program-level recipe edits rather than one-shot suggestions. Across 1,197 headline-run trials plus 600 Parameter Golf control trials after one-time setup and launch, humans did not choose proposals, edit recipes, override scores, or repair failed trials during the search. In the three headline runs, the same submitted-trial loop reduces Parameter Golf validation bpb by 0.81%, raises NanoChat-D12 CORE by 38.7%, and reduces CIFAR-10 Airbench96 wallclock by 4.59%, with each task measured by its own external evaluator and legality checks. The trace includes a strict architecture-domain audit of 157 headline-run submissions and program rewrites such as a NanoChat attention-kernel path change. Within this scope the loop autonomously writes code, submits experiments, absorbs feedback, applies and combines known techniques inside each environment, and improves public starting recipes.