ChatPaper.aiChatPaper

MMEvol: Potenciando Modelos de Lenguaje Multimodales Grandes con Evol-Instruct

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

September 9, 2024
Autores: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI

Resumen

El desarrollo de Modelos de Lenguaje Multimodal Grande (MLLMs) ha experimentado avances significativos. Sin embargo, la cantidad y calidad de los datos de instrucción multimodal han surgido como cuellos de botella significativos en su progreso. La creación manual de datos de instrucción multimodal es tanto demorada como ineficiente, lo que plantea desafíos en la producción de instrucciones de alta complejidad. Además, destilar datos de instrucción de modelos comerciales de caja negra (por ejemplo, GPT-4o, GPT-4V) a menudo resulta en datos de instrucción simplistas, lo que limita el rendimiento a los de estos modelos. El desafío de curar datos de instrucción diversos y complejos sigue siendo sustancial. Proponemos MMEvol, un novedoso marco de evolución de datos de instrucción multimodal que combina evolución de percepción detallada, evolución de razonamiento cognitivo y evolución de interacción. Este enfoque iterativo rompe los cuellos de botella de calidad de datos para generar un conjunto de datos de instrucciones de imagen-texto complejo y diverso, potenciando así a los MLLMs con capacidades mejoradas. Comenzando con un conjunto inicial de instrucciones, SEED-163K, utilizamos MMEvol para ampliar sistemáticamente la diversidad de tipos de instrucciones, integrar pasos de razonamiento para mejorar las capacidades cognitivas y extraer información detallada de las imágenes para mejorar la comprensión visual y la robustez. Para evaluar exhaustivamente la efectividad de nuestros datos, entrenamos LLaVA-NeXT utilizando los datos evolucionados y realizamos experimentos en 13 tareas de visión-lenguaje. En comparación con el modelo base entrenado con los datos iniciales, nuestro enfoque logra una mejora promedio de precisión de 3.1 puntos y alcanza un rendimiento de vanguardia (SOTA) en 9 de estas tareas.
English
The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.

Summary

AI-Generated Summary

PDF493November 16, 2024