Exploration des annotations de concepts multi-échelles pour les grands modèles de langage multimodaux.
Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models
December 8, 2024
Auteurs: Xiao Xu, Tianhao Niu, Yuxi Xie, Libo Qin, Wanxiang Che, Min-Yen Kan
cs.AI
Résumé
Les Modèles de Langage Multimodaux à Grande Échelle (MLLM) excellent dans les tâches de vision--langage en se pré-entraînant uniquement sur des annotations de concepts à gros grains (par exemple, des légendes d'images). Nous émettons l'hypothèse qu'intégrer des annotations de concepts à grains fins (par exemple, des étiquettes d'objets et des régions d'objets) améliorera encore les performances, car les deux granularités de données se complètent en termes de largeur et de profondeur dans la représentation des concepts. Nous introduisons un nouveau jeu de données présentant des annotations de concepts Multimodaux Multi-Grains (MMGiC) pour les MLLM. En construisant MMGiC, nous explorons l'impact de différentes recettes de données sur la compréhension et la génération multimodales. Nos analyses révèlent que les annotations de concepts multi-grains s'intègrent et se complètent, dans le cadre de notre modèle structuré et d'un cadre MLLM général. Nous explorons clairement et démontrons le potentiel de MMGiC pour aider les MLLM à mieux localiser et apprendre des concepts, en alignant la vision et le langage à plusieurs granularités. Nous validons en outre notre hypothèse en étudiant la comparaison équitable et la collaboration efficace entre MMGiC et les données image--légende sur 12 référentiels de compréhension et de génération multimodaux, par exemple, leur combinaison appropriée permet d'obtenir des améliorations absolues de 3,95 % et 2,34 % sur POPE et SEED-Bench par rapport aux données image--légende seules. Le code, les données et les modèles seront disponibles sur https://github.com/LooperXX/MMGiC.
English
Multimodal Large Language Models (MLLMs) excel in vision--language tasks by
pre-training solely on coarse-grained concept annotations (e.g., image
captions). We hypothesize that integrating fine-grained concept annotations
(e.g., object labels and object regions) will further improve performance, as
both data granularities complement each other in terms of breadth and depth in
concept representation. We introduce a new dataset featuring Multimodal
Multi-Grained Concept annotations (MMGiC) for MLLMs. In constructing MMGiC, we
explore the impact of different data recipes on multimodal comprehension and
generation. Our analyses reveal that multi-grained concept annotations
integrate and complement each other, under our structured template and a
general MLLM framework. We clearly explore and demonstrate the potential of
MMGiC to help MLLMs better locate and learn concepts, aligning vision and
language at multiple granularities. We further validate our hypothesis by
investigating the fair comparison and effective collaboration between MMGiC and
image--caption data on 12 multimodal comprehension and generation benchmarks,
e.g., their appropriate combination achieve 3.95% and 2.34% absolute
improvements over image--caption data alone on POPE and SEED-Bench. Code, data
and models will be available at https://github.com/LooperXX/MMGiC.Summary
AI-Generated Summary