MMEvol: Potenziare i Grandi Modelli Linguistici Multimodali con Evol-Instruct
MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct
September 9, 2024
Autori: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI
Abstract
Lo sviluppo dei Modelli Linguistici Multimodali di Grandi Dimensioni (MLLMs) ha registrato significativi progressi. Tuttavia, la quantità e la qualità dei dati di istruzioni multimodali sono emersi come significativi ostacoli al loro progresso. Creare manualmente dati di istruzioni multimodali è sia dispendioso in termini di tempo che inefficiente, ponendo sfide nella produzione di istruzioni ad alta complessità. Inoltre, estrarre dati di istruzioni da modelli commerciali black-box (ad es. GPT-4o, GPT-4V) spesso porta a dati di istruzioni semplicistici, limitando le prestazioni a quelle di tali modelli. La sfida di curare dati di istruzioni diversi e complessi rimane considerevole. Proponiamo MMEvol, un nuovo framework di evoluzione dei dati di istruzioni multimodali che combina evoluzione della percezione dettagliata, evoluzione del ragionamento cognitivo e evoluzione dell'interazione. Questo approccio iterativo supera gli ostacoli legati alla qualità dei dati per generare un insieme complesso e diversificato di istruzioni immagine-testo, potenziando così le capacità dei MLLMs. Partendo da un insieme iniziale di istruzioni, SEED-163K, utilizziamo MMEvol per ampliare sistematicamente la diversità dei tipi di istruzioni, integrare passaggi di ragionamento per potenziare le capacità cognitive ed estrarre informazioni dettagliate dalle immagini per migliorare la comprensione visiva e la robustezza. Per valutare in modo esaustivo l'efficacia dei nostri dati, addestriamo LLaVA-NeXT utilizzando i dati evoluti e conduciamo esperimenti su 13 compiti visione-linguaggio. Rispetto al modello di base addestrato con i dati iniziali, il nostro approccio raggiunge un miglioramento medio dell'accuratezza del 3.1 punti e ottiene prestazioni all'avanguardia (SOTA) in 9 di questi compiti.
English
The development of Multimodal Large Language Models (MLLMs) has seen
significant advancements. However, the quantity and quality of multimodal
instruction data have emerged as significant bottlenecks in their progress.
Manually creating multimodal instruction data is both time-consuming and
inefficient, posing challenges in producing instructions of high complexity.
Moreover, distilling instruction data from black-box commercial models (e.g.,
GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains
performance to that of these models. The challenge of curating diverse and
complex instruction data remains substantial. We propose MMEvol, a novel
multimodal instruction data evolution framework that combines fine-grained
perception evolution, cognitive reasoning evolution, and interaction evolution.
This iterative approach breaks through data quality bottlenecks to generate a
complex and diverse image-text instruction dataset, thereby empowering MLLMs
with enhanced capabilities. Beginning with an initial set of instructions,
SEED-163K, we utilize MMEvol to systematically broadens the diversity of
instruction types, integrates reasoning steps to enhance cognitive
capabilities, and extracts detailed information from images to improve visual
understanding and robustness. To comprehensively evaluate the effectiveness of
our data, we train LLaVA-NeXT using the evolved data and conduct experiments
across 13 vision-language tasks. Compared to the baseline trained with seed
data, our approach achieves an average accuracy improvement of 3.1 points and
reaches state-of-the-art (SOTA) performance on 9 of these tasks.Summary
AI-Generated Summary