SEA : Alignement d'incorporation supervisé pour l'intégration visuel-textuelle au niveau des jetons dans les MLLMs
SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs
August 21, 2024
Auteurs: Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
cs.AI
Résumé
Les Modèles de Langage Multimodaux de Grande Taille (MLMT) ont récemment démontré des capacités perceptuelles et de raisonnement remarquables, comprenant généralement un Encodeur de Vision, un Adaptateur et un Grand Modèle de Langage (GML). L'adaptateur sert de pont crucial entre les composantes visuelles et linguistiques. Cependant, l'entraînement des adaptateurs avec une supervision au niveau de l'image entraîne souvent un désalignement significatif, compromettant les capacités des GML et limitant le potentiel des Modèles de Langage Multimodaux. Pour remédier à cela, nous introduisons l'Alignement d'Incorporation Supervisé (AIS), une méthode d'alignement au niveau du jeton qui exploite des modèles pré-entraînés vision-langage, tels que CLIP, pour aligner les jetons visuels avec l'espace d'incorporation du GML à travers l'apprentissage par contraste. Cette approche garantit une intégration plus cohérente des représentations visuelles et linguistiques, améliorant les performances et l'interprétabilité des MLMT tout en préservant leurs capacités inhérentes. Des expériences approfondies montrent que l'AIS améliore efficacement les MLMT, en particulier pour les modèles plus petits, sans ajouter de données supplémentaires ou de calcul d'inférence. L'AIS pose également les bases pour le développement de solutions plus générales et adaptables visant à améliorer les systèmes multimodaux.
English
Multimodal Large Language Models (MLLMs) have recently demonstrated
remarkable perceptual and reasoning abilities, typically comprising a Vision
Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as
the critical bridge between the visual and language components. However,
training adapters with image-level supervision often results in significant
misalignment, undermining the LLMs' capabilities and limiting the potential of
Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment
(SEA), a token-level alignment method that leverages vision-language
pre-trained models, such as CLIP, to align visual tokens with the LLM's
embedding space through contrastive learning. This approach ensures a more
coherent integration of visual and language representations, enhancing the
performance and interpretability of multimodal LLMs while preserving their
inherent capabilities. Extensive experiments show that SEA effectively improves
MLLMs, particularly for smaller models, without adding extra data or inference
computation. SEA also lays the groundwork for developing more general and
adaptable solutions to enhance multimodal systems.Summary
AI-Generated Summary