MMEvol: Capacitando Modelos de Linguagem Multimodais de Grande Escala com Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
September 9, 2024
Autores: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI
Resumo
O desenvolvimento de Modelos de Linguagem Multimodais de Grande Escala (MLLMs) tem visto avanços significativos. No entanto, a quantidade e qualidade de dados de instrução multimodais surgiram como gargalos significativos em seu progresso. Criar manualmente dados de instrução multimodais é demorado e ineficiente, apresentando desafios na produção de instruções de alta complexidade. Além disso, destilar dados de instrução de modelos comerciais de caixa-preta (por exemplo, GPT-4o, GPT-4V) frequentemente resulta em dados de instrução simplistas, o que limita o desempenho a esses modelos. O desafio de curadoria de dados de instrução diversos e complexos permanece substancial. Propomos o MMEvol, um novo framework de evolução de dados de instrução multimodais que combina evolução de percepção detalhada, evolução de raciocínio cognitivo e evolução de interação. Essa abordagem iterativa supera os gargalos de qualidade de dados para gerar um conjunto de dados de instrução de imagem-texto complexo e diversificado, capacitando assim os MLLMs com capacidades aprimoradas. Começando com um conjunto inicial de instruções, SEED-163K, utilizamos o MMEvol para ampliar sistematicamente a diversidade de tipos de instrução, integrar etapas de raciocínio para aprimorar as capacidades cognitivas e extrair informações detalhadas das imagens para melhorar a compreensão visual e a robustez. Para avaliar abrangentemente a eficácia de nossos dados, treinamos o LLaVA-NeXT usando os dados evoluídos e conduzimos experimentos em 13 tarefas de visão e linguagem. Comparado à linha de base treinada com os dados iniciais, nossa abordagem alcança uma melhoria média de precisão de 3,1 pontos e atinge desempenho de estado da arte (SOTA) em 9 dessas tarefas.
English
The development of Multimodal Large Language Models (MLLMs) has seen
significant advancements. However, the quantity and quality of multimodal
instruction data have emerged as significant bottlenecks in their progress.
Manually creating multimodal instruction data is both time-consuming and
inefficient, posing challenges in producing instructions of high complexity.
Moreover, distilling instruction data from black-box commercial models (e.g.,
GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains
performance to that of these models. The challenge of curating diverse and
complex instruction data remains substantial. We propose MMEvol, a novel
multimodal instruction data evolution framework that combines fine-grained
perception evolution, cognitive reasoning evolution, and interaction evolution.
This iterative approach breaks through data quality bottlenecks to generate a
complex and diverse image-text instruction dataset, thereby empowering MLLMs
with enhanced capabilities. Beginning with an initial set of instructions,
SEED-163K, we utilize MMEvol to systematically broadens the diversity of
instruction types, integrates reasoning steps to enhance cognitive
capabilities, and extracts detailed information from images to improve visual
understanding and robustness. To comprehensively evaluate the effectiveness of
our data, we train LLaVA-NeXT using the evolved data and conduct experiments
across 13 vision-language tasks. Compared to the baseline trained with seed
data, our approach achieves an average accuracy improvement of 3.1 points and
reaches state-of-the-art (SOTA) performance on 9 of these tasks.Summary
AI-Generated Summary