MLGym: Новый фреймворк и бенчмарк для продвижения исследовательских агентов в области ИИMLGym: A New Framework and Benchmark for Advancing AI Research Agents
Мы представляем Meta MLGym и MLGym-Bench — новую среду и набор тестов для оценки и разработки агентов на основе больших языковых моделей (LLM) в задачах исследований в области искусственного интеллекта (ИИ). Это первая среда Gym, ориентированная на задачи машинного обучения (ML), которая позволяет исследовать алгоритмы обучения с подкреплением (RL) для тренировки таких агентов. MLGym-Bench включает 13 разнообразных и открытых задач из различных областей, таких как компьютерное зрение, обработка естественного языка, обучение с подкреплением и теория игр. Решение этих задач требует навыков реальных исследований в области ИИ, включая генерацию новых идей и гипотез, создание и обработку данных, реализацию методов ML, обучение моделей, проведение экспериментов, анализ результатов и итеративное улучшение результатов для конкретной задачи. Мы оцениваем несколько передовых больших языковых моделей, таких как Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview и Gemini-1.5 Pro, на наших тестах. Наша среда MLGym упрощает добавление новых задач, интеграцию и оценку моделей или агентов, генерацию синтетических данных в больших масштабах, а также разработку новых алгоритмов обучения для тренировки агентов в задачах исследований ИИ. Мы обнаружили, что современные передовые модели могут улучшать заданные базовые показатели, обычно за счет поиска лучших гиперпараметров, но не генерируют новые гипотезы, алгоритмы, архитектуры или значительные улучшения. Мы открываем исходный код нашей среды и набора тестов, чтобы способствовать дальнейшим исследованиям в области повышения исследовательских возможностей агентов на основе LLM.