ChatPaper.aiChatPaper

FML-bench: Бенчмарк для автоматизированных исследовательских агентов в области машинного обучения, подчеркивающий важность широты исследования

FML-bench: A Benchmark for Automatic ML Research Agents Highlighting the Importance of Exploration Breadth

October 12, 2025
Авторы: Qiran Zou, Hou Hei Lam, Wenhao Zhao, Yiming Tang, Tingting Chen, Samson Yu, Tianyi Zhang, Chang Liu, Xiangyang Ji, Dianbo Liu
cs.AI

Аннотация

Крупные языковые модели (LLMs) вызвали растущий интерес к автоматизированным исследовательским агентам в области машинного обучения. Среди них особенно перспективными являются агенты, способные автономно предлагать идеи и проводить эксперименты по машинному обучению, поскольку они максимизируют автоматизацию исследований и ускоряют научный прогресс за счет итеративного уточнения идей на основе экспериментальных результатов. Однако всесторонняя оценка таких агентов остается сложной задачей. Существующие бенчмарки склонны чрезмерно акцентировать внимание на инженерных аспектах, пренебрегая академической строгостью, что создает барьеры для четкой оценки научных способностей агентов в исследованиях машинного обучения. Они также страдают от ограниченного разнообразия задач, чрезмерного внимания к прикладным задачам в ущерб фундаментальным исследовательским проблемам, а также ограниченной масштабируемости к реалистичным исследовательским условиям. Чтобы устранить эти ограничения, мы представляем FML-bench — бенчмарк, разработанный для оценки автоматизированных исследовательских агентов на 8 разнообразных и фундаментальных проблемах машинного обучения. Он снижает нагрузку на написание кода, акцентирует внимание на фундаментальных проблемах, а не на конкретных случаях использования, предлагает высокое разнообразие задач и может быть расширен для работы с реальными репозиториями машинного обучения на GitHub. Кроме того, мы представляем унифицированную систему оценки с пятью взаимодополняющими метриками, предназначенную для всесторонней оценки производительности агентов на нашем бенчмарке. Мы оцениваем современные автоматизированные исследовательские агенты на FML-bench и обнаруживаем, что агенты, использующие стратегии широкого исследовательского поиска, превосходят тех, кто сосредоточен на узком, но глубоком исследовании. Эти результаты позволяют предположить, что акцент на широте поиска может привести к более эффективным результатам исследований, чем сосредоточение исключительно на инкрементальном уточнении. Наш бенчмарк доступен по адресу https://github.com/qrzou/FML-bench.
English
Large language models (LLMs) have sparked growing interest in automatic machine learning research agents. Among them, agents capable of autonomously proposing ideas and conducting machine learning experiments are particularly promising, as they maximize research automation and accelerate scientific progress by iteratively refining ideas based on experimental results. However, comprehensively evaluating such agents remains challenging. Existing benchmarks tend to overemphasize engineering aspects while neglecting academic rigor, creating barriers that obscure a clear assessment of an agent's scientific capabilities in machine learning research. They also suffer from limited task diversity, an overemphasis on application-oriented tasks over fundamental research problems, and limited scalability to realistic research settings. To address these limitations, we introduce FML-bench, a benchmark designed to evaluate automatic machine learning research agents on 8 diverse and fundamental machine learning research problems. It reduces coding burden, emphasizes fundamental problems rather than specific use cases, offers high task diversity, and is extensible to real-world machine learning GitHub repositories. Furthermore, we present a unified evaluation framework with five complementary metrics, designed to comprehensively assess agent performance on our benchmark. We evaluate state-of-the-art automatic research agents on FML-bench, and find that agents employing broad research exploration strategies outperform those focusing on narrow but deep exploration. These findings suggest that emphasizing the breadth of exploration may lead to more effective research outcomes than focusing solely on incremental refinement. Our benchmark is available at https://github.com/qrzou/FML-bench.
PDF72October 17, 2025