ChatPaper.aiChatPaper

SEA: 教師付き埋め込み整列によるMLLM内のトークンレベルのビジュアルテキスト統合

SEA: Supervised Embedding Alignment for Token-Level Visual-Textual Integration in MLLMs

August 21, 2024
著者: Yuanyang Yin, Yaqi Zhao, Yajie Zhang, Ke Lin, Jiahao Wang, Xin Tao, Pengfei Wan, Di Zhang, Baoqun Yin, Wentao Zhang
cs.AI

要旨

最近、Multimodal Large Language Models (MLLMs) は、通常、Vision Encoder、Adapter、およびLarge Language Model (LLM) から構成される、顕著な知覚および推論能力を示しています。アダプタは、視覚と言語のコンポーネント間の重要な橋渡しとして機能します。ただし、画像レベルの監督を使用してアダプタをトレーニングすると、しばしば大幅な不整合が生じ、Multimodal LLMs の能力が損なわれ、潜在能力が制限されます。この問題に対処するために、我々はSupervised Embedding Alignment (SEA) を導入します。SEA は、CLIPなどのビジョン-言語事前トレーニングモデルを活用し、コントラスティブラーニングを介して視覚トークンをLLMの埋め込み空間に整列させる、トークンレベルの整列方法です。このアプローチにより、視覚と言語表現がより一貫して統合され、Multimodal LLMs のパフォーマンスと解釈可能性が向上し、固有の能力が保持されます。包括的な実験では、SEA が特に小規模モデルに追加のデータや推論計算を必要とせずに、MLLMs を効果的に改善することが示されました。SEA は、より一般的で適応可能なソリューションを開発するための基盤を築くと同時に、Multimodal システムを強化するための手法の構築にも貢献します。
English
Multimodal Large Language Models (MLLMs) have recently demonstrated remarkable perceptual and reasoning abilities, typically comprising a Vision Encoder, an Adapter, and a Large Language Model (LLM). The adapter serves as the critical bridge between the visual and language components. However, training adapters with image-level supervision often results in significant misalignment, undermining the LLMs' capabilities and limiting the potential of Multimodal LLMs. To address this, we introduce Supervised Embedding Alignment (SEA), a token-level alignment method that leverages vision-language pre-trained models, such as CLIP, to align visual tokens with the LLM's embedding space through contrastive learning. This approach ensures a more coherent integration of visual and language representations, enhancing the performance and interpretability of multimodal LLMs while preserving their inherent capabilities. Extensive experiments show that SEA effectively improves MLLMs, particularly for smaller models, without adding extra data or inference computation. SEA also lays the groundwork for developing more general and adaptable solutions to enhance multimodal systems.

Summary

AI-Generated Summary

PDF122November 16, 2024