SEA : Alignement d'incorporation supervisé pour l'intégration visuel-textuelle au niveau des jetons dans les MLLMs

papers.abstract

Les Modèles de Langage Multimodaux de Grande Taille (MLMT) ont récemment démontré des capacités perceptuelles et de raisonnement remarquables, comprenant généralement un Encodeur de Vision, un Adaptateur et un Grand Modèle de Langage (GML). L'adaptateur sert de pont crucial entre les composantes visuelles et linguistiques. Cependant, l'entraînement des adaptateurs avec une supervision au niveau de l'image entraîne souvent un désalignement significatif, compromettant les capacités des GML et limitant le potentiel des Modèles de Langage Multimodaux. Pour remédier à cela, nous introduisons l'Alignement d'Incorporation Supervisé (AIS), une méthode d'alignement au niveau du jeton qui exploite des modèles pré-entraînés vision-langage, tels que CLIP, pour aligner les jetons visuels avec l'espace d'incorporation du GML à travers l'apprentissage par contraste. Cette approche garantit une intégration plus cohérente des représentations visuelles et linguistiques, améliorant les performances et l'interprétabilité des MLMT tout en préservant leurs capacités inhérentes. Des expériences approfondies montrent que l'AIS améliore efficacement les MLMT, en particulier pour les modèles plus petits, sans ajouter de données supplémentaires ou de calcul d'inférence. L'AIS pose également les bases pour le développement de solutions plus générales et adaptables visant à améliorer les systèmes multimodaux.

English

Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities, typically comprising a Vision Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as the critical bridge between the visual and language components. However, training adapters with image-level supervision often results in significant misalignment, undermining the LLMs' capabilities and limiting the potential of Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment (SEA), a token-level alignment method that leverages vision-language pre-trained models, such as CLIP, to align visual tokens with the LLM's embedding space through contrastive learning. This approach ensures a more coherent integration of visual and language representations, enhancing the performance and interpretability of multimodal LLMs while preserving their inherent capabilities. Extensive experiments show that SEA effectively improves MLLMs, particularly for smaller models, without adding extra data or inference computation. SEA also lays the groundwork for developing more general and adaptable solutions to enhance multimodal systems.

SEA : Alignement d'incorporation supervisé pour l'intégration visuel-textuelle au niveau des jetons dans les MLLMs

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

papers.abstract

Support