FML-bench: 탐색 범위의 중요성을 강조하는 자동화된 ML 연구 에이전트를 위한 벤치마크
FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth
October 12, 2025
저자: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI
초록
대형 언어 모델(LLMs)은 자동화된 머신러닝 연구 에이전트에 대한 관심을 크게 불러일으켰습니다. 특히, 아이디어를 자율적으로 제안하고 머신러닝 실험을 수행할 수 있는 에이전트는 연구 자동화를 극대화하고 실험 결과를 바탕으로 아이디어를 반복적으로 개선함으로써 과학적 진전을 가속화할 수 있어 매우 유망합니다. 그러나 이러한 에이전트를 포괄적으로 평가하는 것은 여전히 어려운 과제입니다. 기존 벤치마크는 엔지니어링 측면을 과도하게 강조하는 반면 학문적 엄격성을 소홀히 하여, 머신러닝 연구에서 에이전트의 과학적 역량을 명확히 평가하는 데 장벽이 되고 있습니다. 또한, 제한된 작업 다양성, 근본적인 연구 문제보다 응용 지향적 작업에 대한 과도한 강조, 그리고 현실적인 연구 환경으로의 확장성 부족 등의 문제를 안고 있습니다. 이러한 한계를 해결하기 위해, 우리는 8가지 다양한 근본적인 머신러닝 연구 문제에 대해 자동화된 머신러닝 연구 에이전트를 평가하기 위해 설계된 벤치마크인 FML-bench를 소개합니다. 이 벤치마크는 코딩 부담을 줄이고, 특정 사용 사례보다 근본적인 문제를 강조하며, 높은 작업 다양성을 제공하며, 실제 머신러닝 GitHub 저장소로 확장 가능합니다. 또한, 우리는 벤치마크에서 에이전트 성능을 포괄적으로 평가하기 위해 설계된 5가지 상호 보완적인 지표를 포함한 통합 평가 프레임워크를 제시합니다. 우리는 FML-bench에서 최신 자동화 연구 에이전트를 평가했으며, 광범위한 연구 탐색 전략을 사용하는 에이전트가 좁지만 깊은 탐색에 초점을 맞추는 에이전트보다 더 우수한 성능을 보인다는 것을 발견했습니다. 이러한 결과는 점진적인 개선에만 초점을 맞추는 것보다 탐색의 폭을 강조하는 것이 더 효과적인 연구 결과를 이끌어낼 수 있음을 시사합니다. 우리의 벤치마크는 https://github.com/qrzou/FML-bench에서 확인할 수 있습니다.
English
Large language models (LLMs) have sparked growing interest in automatic
machine learning research agents. Among them, agents capable of autonomously
proposing ideas and conducting machine learning experiments are particularly
promising, as they maximize research automation and accelerate scientific
progress by iteratively refining ideas based on experimental results. However,
comprehensively evaluating such agents remains challenging. Existing benchmarks
tend to overemphasize engineering aspects while neglecting academic rigor,
creating barriers that obscure a clear assessment of an agent's scientific
capabilities in machine learning research. They also suffer from limited task
diversity, an overemphasis on application-oriented tasks over fundamental
research problems, and limited scalability to realistic research settings. To
address these limitations, we introduce FML-bench, a benchmark designed to
evaluate automatic machine learning research agents on 8 diverse and
fundamental machine learning research problems. It reduces coding burden,
emphasizes fundamental problems rather than specific use cases, offers high
task diversity, and is extensible to real-world machine learning GitHub
repositories. Furthermore, we present a unified evaluation framework with five
complementary metrics, designed to comprehensively assess agent performance on
our benchmark. We evaluate state-of-the-art automatic research agents on
FML-bench, and find that agents employing broad research exploration strategies
outperform those focusing on narrow but deep exploration. These findings
suggest that emphasizing the breadth of exploration may lead to more effective
research outcomes than focusing solely on incremental refinement. Our benchmark
is available at https://github.com/qrzou/FML-bench.