ChatPaper.aiChatPaper

MLGym: Un Nuevo Marco de Referencia y Punto de Referencia para el Avance de los Agentes de Investigación en IA

MLGym: A New Framework and Benchmark for Advancing AI Research Agents

February 20, 2025
Autores: Deepak Nathani, Lovish Madaan, Nicholas Roberts, Nikolay Bashlykov, Ajay Menon, Vincent Moens, Amar Budhiraja, Despoina Magka, Vladislav Vorotilov, Gaurav Chaurasia, Dieuwke Hupkes, Ricardo Silveira Cabral, Tatiana Shavrina, Jakob Foerster, Yoram Bachrach, William Yang Wang, Roberta Raileanu
cs.AI

Resumen

Presentamos Meta MLGym y MLGym-Bench, un nuevo marco de trabajo y punto de referencia para evaluar y desarrollar agentes de modelos de lenguaje grandes (LLM) en tareas de investigación en IA. Este es el primer entorno Gym diseñado específicamente para tareas de aprendizaje automático (ML), permitiendo la investigación de algoritmos de aprendizaje por refuerzo (RL) para entrenar dichos agentes. MLGym-Bench consta de 13 tareas diversas y abiertas de investigación en IA, provenientes de dominios como visión por computadora, procesamiento de lenguaje natural, aprendizaje por refuerzo y teoría de juegos. Resolver estas tareas requiere habilidades reales de investigación en IA, como generar nuevas ideas e hipótesis, crear y procesar datos, implementar métodos de ML, entrenar modelos, ejecutar experimentos, analizar resultados e iterar este proceso para mejorar en una tarea dada. Evaluamos varios modelos de lenguaje grandes de vanguardia en nuestros puntos de referencia, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview y Gemini-1.5 Pro. Nuestro marco MLGym facilita la adición de nuevas tareas, la integración y evaluación de modelos o agentes, la generación de datos sintéticos a gran escala, así como el desarrollo de nuevos algoritmos de aprendizaje para entrenar agentes en tareas de investigación en IA. Observamos que los modelos de vanguardia actuales pueden mejorar los puntos de referencia dados, generalmente al encontrar mejores hiperparámetros, pero no generan hipótesis, algoritmos, arquitecturas o mejoras sustanciales novedosas. Hacemos público nuestro marco y punto de referencia para facilitar futuras investigaciones en el avance de las capacidades de investigación en IA de los agentes LLM.
English
We introduce Meta MLGym and MLGym-Bench, a new framework and benchmark for evaluating and developing LLM agents on AI research tasks. This is the first Gym environment for machine learning (ML) tasks, enabling research on reinforcement learning (RL) algorithms for training such agents. MLGym-bench consists of 13 diverse and open-ended AI research tasks from diverse domains such as computer vision, natural language processing, reinforcement learning, and game theory. Solving these tasks requires real-world AI research skills such as generating new ideas and hypotheses, creating and processing data, implementing ML methods, training models, running experiments, analyzing the results, and iterating through this process to improve on a given task. We evaluate a number of frontier large language models (LLMs) on our benchmarks such as Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview, and Gemini-1.5 Pro. Our MLGym framework makes it easy to add new tasks, integrate and evaluate models or agents, generate synthetic data at scale, as well as develop new learning algorithms for training agents on AI research tasks. We find that current frontier models can improve on the given baselines, usually by finding better hyperparameters, but do not generate novel hypotheses, algorithms, architectures, or substantial improvements. We open-source our framework and benchmark to facilitate future research in advancing the AI research capabilities of LLM agents.

Summary

AI-Generated Summary

PDF1923February 21, 2025