ChatPaper.aiChatPaper

MMEvol: Multimodale Große Sprachmodelle mit Evol-Instruct stärken

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

September 9, 2024
Autoren: Run Luo, Haonan Zhang, Longze Chen, Ting-En Lin, Xiong Liu, Yuchuan Wu, Min Yang, Minzheng Wang, Pengpeng Zeng, Lianli Gao, Heng Tao Shen, Yunshui Li, Xiaobo Xia, Fei Huang, Jingkuan Song, Yongbin Li
cs.AI

Zusammenfassung

Die Entwicklung von Multimodalen Großen Sprachmodellen (MLLMs) hat bedeutende Fortschritte verzeichnet. Allerdings sind die Menge und Qualität multimodaler Anweisungsdaten als signifikante Engpässe in ihrem Fortschritt aufgetreten. Die manuelle Erstellung multimodaler Anweisungsdaten ist sowohl zeitaufwändig als auch ineffizient und stellt Herausforderungen bei der Erstellung von Anweisungen hoher Komplexität dar. Darüber hinaus führt die Extraktion von Anweisungsdaten aus Black-Box-Kommerziellen Modellen (z. B. GPT-4o, GPT-4V) oft zu simplen Anweisungsdaten, was die Leistung auf die dieser Modelle beschränkt. Die Herausforderung, vielfältige und komplexe Anweisungsdaten zu kuratieren, bleibt erheblich. Wir schlagen MMEvol vor, ein neuartiges Rahmenwerk zur Evolution multimodaler Anweisungsdaten, das Feinkörnige Wahrnehmungsevolution, kognitive Denkevolution und Interaktionsevolution kombiniert. Dieser iterative Ansatz überwindet Engpässe bei der Datenqualität, um einen komplexen und vielfältigen Bild-Text-Anweisungsdatensatz zu generieren und damit MLLMs mit verbesserten Fähigkeiten auszustatten. Ausgehend von einem initialen Satz von Anweisungen, SEED-163K, nutzen wir MMEvol, um systematisch die Vielfalt der Anweisungstypen zu erweitern, Denkschritte zu integrieren, um kognitive Fähigkeiten zu verbessern, und detaillierte Informationen aus Bildern zu extrahieren, um das visuelle Verständnis und die Robustheit zu verbessern. Um die Effektivität unserer Daten umfassend zu bewerten, trainieren wir LLaVA-NeXT mit den weiterentwickelten Daten und führen Experimente in 13 Vision-Sprach-Aufgaben durch. Im Vergleich zur Baseline, die mit Seed-Daten trainiert wurde, erreicht unser Ansatz eine durchschnittliche Genauigkeitsverbesserung von 3,1 Punkten und erzielt bei 9 dieser Aufgaben eine State-of-the-Art (SOTA)-Leistung.
English
The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.

Summary

AI-Generated Summary

PDF493November 16, 2024