MLGym: Новый фреймворк и бенчмарк для продвижения исследовательских агентов в области ИИ
MLGym: A New Framework and Benchmark for Advancing AI Research Agents
February 20, 2025
Авторы: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI
Аннотация
Мы представляем Meta MLGym и MLGym-Bench — новую среду и набор тестов для оценки и разработки агентов на основе больших языковых моделей (LLM) в задачах исследований в области искусственного интеллекта (ИИ). Это первая среда Gym, ориентированная на задачи машинного обучения (ML), которая позволяет исследовать алгоритмы обучения с подкреплением (RL) для тренировки таких агентов. MLGym-Bench включает 13 разнообразных и открытых задач из различных областей, таких как компьютерное зрение, обработка естественного языка, обучение с подкреплением и теория игр. Решение этих задач требует навыков реальных исследований в области ИИ, включая генерацию новых идей и гипотез, создание и обработку данных, реализацию методов ML, обучение моделей, проведение экспериментов, анализ результатов и итеративное улучшение результатов для конкретной задачи. Мы оцениваем несколько передовых больших языковых моделей, таких как Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview и Gemini-1.5 Pro, на наших тестах. Наша среда MLGym упрощает добавление новых задач, интеграцию и оценку моделей или агентов, генерацию синтетических данных в больших масштабах, а также разработку новых алгоритмов обучения для тренировки агентов в задачах исследований ИИ. Мы обнаружили, что современные передовые модели могут улучшать заданные базовые показатели, обычно за счет поиска лучших гиперпараметров, но не генерируют новые гипотезы, алгоритмы, архитектуры или значительные улучшения. Мы открываем исходный код нашей среды и набора тестов, чтобы способствовать дальнейшим исследованиям в области повышения исследовательских возможностей агентов на основе LLM.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for
evaluating and developing LLM agents on AI research tasks. This is the first
Gym environment for machine learning (ML) tasks, enabling research on
reinforcement learning (RL) algorithms for training such agents. MLGym-bench
consists of 13 diverse and open-ended AI research tasks from diverse domains
such as computer vision, natural language processing, reinforcement learning,
and game theory. Solving these tasks requires real-world AI research skills
such as generating new ideas and hypotheses, creating and processing data,
implementing ML methods, training models, running experiments, analyzing the
results, and iterating through this process to improve on a given task. We
evaluate a number of frontier large language models (LLMs) on our benchmarks
such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5
Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate
models or agents, generate synthetic data at scale, as well as develop new
learning algorithms for training agents on AI research tasks. We find that
current frontier models can improve on the given baselines, usually by finding
better hyperparameters, but do not generate novel hypotheses, algorithms,
architectures, or substantial improvements. We open-source our framework and
benchmark to facilitate future research in advancing the AI research
capabilities of LLM agents.Summary
AI-Generated Summary