Exploration des annotations de concepts multi-échelles pour les grands modèles de langage multimodaux.

Résumé

Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) excellent dans les tâches de vision--langage en se pré-entraînant uniquement sur des annotations de concepts à gros grains (par exemple, des légendes d'images). Nous émettons l'hypothèse qu'intégrer des annotations de concepts à grains fins (par exemple, des étiquettes d'objets et des régions d'objets) améliorera encore les performances, car les deux granularités de données se complètent en termes de largeur et de profondeur dans la représentation des concepts. Nous introduisons un nouveau jeu de données présentant des annotations de concepts Multimodaux Multi-Grains (MMGiC) pour les MLLM. En construisant MMGiC, nous explorons l'impact de différentes recettes de données sur la compréhension et la génération multimodales. Nos analyses révèlent que les annotations de concepts multi-grains s'intègrent et se complètent, dans le cadre de notre modèle structuré et d'un cadre MLLM général. Nous explorons clairement et démontrons le potentiel de MMGiC pour aider les MLLM à mieux localiser et apprendre des concepts, en alignant la vision et le langage à plusieurs granularités. Nous validons en outre notre hypothèse en étudiant la comparaison équitable et la collaboration efficace entre MMGiC et les données image--légende sur 12 référentiels de compréhension et de génération multimodaux, par exemple, leur combinaison appropriée permet d'obtenir des améliorations absolues de 3,95 % et 2,34 % sur POPE et SEED-Bench par rapport aux données image--légende seules. Le code, les données et les modèles seront disponibles sur https://github.com/LooperXX/MMGiC.

English

Multimodal Large Language Models (MLLMs) excel in vision--language tasks by pre-training solely on coarse-grained concept annotations (e.g., image captions). We hypothesize that integrating fine-grained concept annotations (e.g., object labels and object regions) will further improve performance, as both data granularities complement each other in terms of breadth and depth in concept representation. We introduce a new dataset featuring Multimodal Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we explore the impact of different data recipes on multimodal comprehension and generation. Our analyses reveal that multi-grained concept annotations integrate and complement each other, under our structured template and a general MLLM framework. We clearly explore and demonstrate the potential of MMGiC to help MLLMs better locate and learn concepts, aligning vision and language at multiple granularities. We further validate our hypothesis by investigating the fair comparison and effective collaboration between MMGiC and image--caption data on 12 multimodal comprehension and generation benchmarks, e.g., their appropriate combination achieve 3.95% and 2.34% absolute improvements over image--caption data alone on POPE and SEED-Bench. Code, data and models will be available at https://github.com/LooperXX/MMGiC.

Exploration des annotations de concepts multi-échelles pour les grands modèles de langage multimodaux.

Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models

Résumé

Summary

Support

Support