En el camino hacia un generalista multimodal: Nivel General y General-BenchOn Path to Multimodal Generalist: General-Level and General-Bench
El Modelo de Lenguaje Multimodal de Gran Escala (MLLM, por sus siglas en inglés) está experimentando actualmente un crecimiento acelerado, impulsado por las capacidades avanzadas de los LLM. A diferencia de los especialistas anteriores, los MLLM existentes están evolucionando hacia un paradigma de Generalista Multimodal. Inicialmente limitados a comprender múltiples modalidades, estos modelos han avanzado para no solo comprender, sino también generar contenido a través de modalidades. Sus capacidades se han expandido desde una comprensión multimodal de grano grueso hasta una de grano fino, y desde el soporte de modalidades limitadas hasta modalidades arbitrarias. Si bien existen muchos puntos de referencia para evaluar los MLLM, surge una pregunta crítica: ¿Podemos simplemente asumir que un mayor rendimiento en diversas tareas indica una mayor capacidad del MLLM, acercándonos a una IA de nivel humano? Argumentamos que la respuesta no es tan sencilla como parece. Este proyecto introduce General-Level, un marco de evaluación que define 5 niveles de escala en el rendimiento y la generalidad de los MLLM, ofreciendo una metodología para comparar estos modelos y medir el progreso de los sistemas existentes hacia generalistas multimodales más robustos y, en última instancia, hacia la AGI (Inteligencia Artificial General). En el núcleo del marco se encuentra el concepto de Sinergia, que mide si los modelos mantienen capacidades consistentes tanto en la comprensión como en la generación, y a través de múltiples modalidades. Para respaldar esta evaluación, presentamos General-Bench, que abarca un espectro más amplio de habilidades, modalidades, formatos y capacidades, incluyendo más de 700 tareas y 325,800 instancias. Los resultados de la evaluación, que involucran a más de 100 MLLM de última generación, revelan las clasificaciones de capacidad de los generalistas, destacando los desafíos para alcanzar una IA genuina. Esperamos que este proyecto allane el camino para futuras investigaciones sobre modelos fundacionales multimodales de próxima generación, proporcionando una infraestructura robusta para acelerar la realización de la AGI. Página del proyecto: https://generalist.top/