MMEvol : Renforcer les grands modèles de langage multimodaux avec Evol-Instruct

papers.abstract

Le développement des Modèles de Langage Multimodaux à Grande Échelle (MLLM) a connu des avancées significatives. Cependant, la quantité et la qualité des données d'instructions multimodales sont devenues des obstacles majeurs à leur progression. La création manuelle de données d'instructions multimodales est à la fois chronophage et inefficace, posant des défis pour produire des instructions de haute complexité. De plus, extraire des données d'instructions à partir de modèles commerciaux boîte noire (par exemple, GPT-4o, GPT-4V) conduit souvent à des données d'instructions simplistes, limitant les performances à celles de ces modèles. Le défi de la création de données d'instructions diverses et complexes reste important. Nous proposons MMEvol, un nouveau cadre d'évolution de données d'instructions multimodales qui combine l'évolution de la perception fine, l'évolution du raisonnement cognitif et l'évolution de l'interaction. Cette approche itérative permet de surmonter les obstacles liés à la qualité des données pour générer un ensemble d'instructions image-texte complexe et diversifié, renforçant ainsi les capacités des MLLM. En partant d'un ensemble initial d'instructions, SEED-163K, nous utilisons MMEvol pour élargir systématiquement la diversité des types d'instructions, intégrer des étapes de raisonnement pour améliorer les capacités cognitives, et extraire des informations détaillées des images pour améliorer la compréhension visuelle et la robustesse. Pour évaluer de manière exhaustive l'efficacité de nos données, nous entraînons LLaVA-NeXT en utilisant les données évoluées et menons des expériences sur 13 tâches vision-langage. Comparé à la référence entraînée avec les données de départ, notre approche obtient une amélioration moyenne de précision de 3,1 points et atteint des performances de pointe (SOTA) sur 9 de ces tâches.

English

The development of Multimodal Large Language Models (MLLMs) has seen significant advancements. However, the quantity and quality of multimodal instruction data have emerged as significant bottlenecks in their progress. Manually creating multimodal instruction data is both time-consuming and inefficient, posing challenges in producing instructions of high complexity. Moreover, distilling instruction data from black-box commercial models (e.g., GPT-4o, GPT-4V) often results in simplistic instruction data, which constrains performance to that of these models. The challenge of curating diverse and complex instruction data remains substantial. We propose MMEvol, a novel multimodal instruction data evolution framework that combines fine-grained perception evolution, cognitive reasoning evolution, and interaction evolution. This iterative approach breaks through data quality bottlenecks to generate a complex and diverse image-text instruction dataset, thereby empowering MLLMs with enhanced capabilities. Beginning with an initial set of instructions, SEED-163K, we utilize MMEvol to systematically broadens the diversity of instruction types, integrates reasoning steps to enhance cognitive capabilities, and extracts detailed information from images to improve visual understanding and robustness. To comprehensively evaluate the effectiveness of our data, we train LLaVA-NeXT using the evolved data and conduct experiments across 13 vision-language tasks. Compared to the baseline trained with seed data, our approach achieves an average accuracy improvement of 3.1 points and reaches state-of-the-art (SOTA) performance on 9 of these tasks.

MMEvol : Renforcer les grands modèles de langage multimodaux avec Evol-Instruct

MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct

papers.abstract

Support