MLGym: Un Nuevo Marco de Referencia y Punto de Referencia para el Avance de los Agentes de Investigación en IAMLGym: A New Framework and Benchmark for Advancing AI Research Agents
Presentamos Meta MLGym y MLGym-Bench, un nuevo marco de trabajo y punto de referencia para evaluar y desarrollar agentes de modelos de lenguaje grandes (LLM) en tareas de investigación en IA. Este es el primer entorno Gym diseñado específicamente para tareas de aprendizaje automático (ML), permitiendo la investigación de algoritmos de aprendizaje por refuerzo (RL) para entrenar dichos agentes. MLGym-Bench consta de 13 tareas diversas y abiertas de investigación en IA, provenientes de dominios como visión por computadora, procesamiento de lenguaje natural, aprendizaje por refuerzo y teoría de juegos. Resolver estas tareas requiere habilidades reales de investigación en IA, como generar nuevas ideas e hipótesis, crear y procesar datos, implementar métodos de ML, entrenar modelos, ejecutar experimentos, analizar resultados e iterar este proceso para mejorar en una tarea dada. Evaluamos varios modelos de lenguaje grandes de vanguardia en nuestros puntos de referencia, como Claude-3.5-Sonnet, Llama-3.1 405B, GPT-4o, o1-preview y Gemini-1.5 Pro. Nuestro marco MLGym facilita la adición de nuevas tareas, la integración y evaluación de modelos o agentes, la generación de datos sintéticos a gran escala, así como el desarrollo de nuevos algoritmos de aprendizaje para entrenar agentes en tareas de investigación en IA. Observamos que los modelos de vanguardia actuales pueden mejorar los puntos de referencia dados, generalmente al encontrar mejores hiperparámetros, pero no generan hipótesis, algoritmos, arquitecturas o mejoras sustanciales novedosas. Hacemos público nuestro marco y punto de referencia para facilitar futuras investigaciones en el avance de las capacidades de investigación en IA de los agentes LLM.