ChatPaper.aiChatPaper

FML-bench: 探索の広さの重要性を強調する自動ML研究エージェントのためのベンチマーク

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

October 12, 2025
著者: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI

要旨

大規模言語モデル(LLMs)は、自動機械学習研究エージェントに対する関心の高まりを引き起こしています。特に、自律的にアイデアを提案し、機械学習実験を実施できるエージェントは、研究の自動化を最大化し、実験結果に基づいてアイデアを反復的に洗練することで科学的進歩を加速する点で非常に有望です。しかし、このようなエージェントを包括的に評価することは依然として困難です。既存のベンチマークは、工学面を過度に重視する一方で学術的厳密性を軽視しており、機械学習研究におけるエージェントの科学的能力を明確に評価するための障壁となっています。また、タスクの多様性が限られており、応用指向のタスクに偏りがちで、基本的な研究問題に対する取り組みが不足しているほか、現実的な研究環境へのスケーラビリティも限られています。これらの課題に対処するため、我々はFML-benchを導入しました。これは、8つの多様で基本的な機械学習研究問題に基づいて自動機械学習研究エージェントを評価するために設計されたベンチマークです。これにより、コーディング負荷が軽減され、特定のユースケースではなく基本的な問題に重点が置かれ、高いタスク多様性が提供され、現実世界の機械学習GitHubリポジトリへの拡張性が確保されています。さらに、我々は5つの補完的なメトリクスからなる統一評価フレームワークを提示し、ベンチマーク上でのエージェントのパフォーマンスを包括的に評価することを目指しています。我々は最先端の自動研究エージェントをFML-benchで評価し、広範な研究探索戦略を採用するエージェントが、狭く深い探索に焦点を当てるエージェントを上回ることを発見しました。これらの結果は、探索の幅を重視することが、漸進的な洗練にのみ焦点を当てるよりも効果的な研究成果につながる可能性を示唆しています。我々のベンチマークはhttps://github.com/qrzou/FML-benchで公開されています。
English
Large language models (LLMs) have sparked growing interest in automatic machine learning research agents. Among them, agents capable of autonomously proposing ideas and conducting machine learning experiments are particularly promising, as they maximize research automation and accelerate scientific progress by iteratively refining ideas based on experimental results. However, comprehensively evaluating such agents remains challenging. Existing benchmarks tend to overemphasize engineering aspects while neglecting academic rigor, creating barriers that obscure a clear assessment of an agent's scientific capabilities in machine learning research. They also suffer from limited task diversity, an overemphasis on application-oriented tasks over fundamental research problems, and limited scalability to realistic research settings. To address these limitations, we introduce FML-bench, a benchmark designed to evaluate automatic machine learning research agents on 8 diverse and fundamental machine learning research problems. It reduces coding burden, emphasizes fundamental problems rather than specific use cases, offers high task diversity, and is extensible to real-world machine learning GitHub repositories. Furthermore, we present a unified evaluation framework with five complementary metrics, designed to comprehensively assess agent performance on our benchmark. We evaluate state-of-the-art automatic research agents on FML-bench, and find that agents employing broad research exploration strategies outperform those focusing on narrow but deep exploration. These findings suggest that emphasizing the breadth of exploration may lead to more effective research outcomes than focusing solely on incremental refinement. Our benchmark is available at https://github.com/qrzou/FML-bench.
PDF72October 17, 2025