FUSION: 深層的クロスモーダル理解のための視覚-言語表現の完全統合
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
April 14, 2025
著者: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI
要旨
我々は、完全な視覚-言語アライメントと統合パラダイムを備えたマルチモーダル大規模言語モデル(MLLM)ファミリーであるFUSIONを紹介する。既存の手法が主にLLMデコーディング段階での後期モダリティ相互作用に依存しているのに対し、我々のアプローチは処理パイプライン全体にわたる深く動的な統合を実現する。この目的のために、テキスト情報を視覚エンコーディングに組み込むことでピクセルレベルの統合を達成するText-Guided Unified Vision Encodingを提案する。さらに、デコーディング中にテキストコンテキストに基づいて視覚特徴を再帰的に集約するContext-Aware Recursive Alignment Decodingを設計し、細粒度の質問レベルでの意味的統合を可能にする。特徴マッピングをガイドし、モダリティ間の不一致を緩和するために、Dual-Supervised Semantic Mapping Lossを開発する。加えて、新しいデータ合成手法を通じてSynthesized Language-Driven Question-Answer (QA)データセットを構築し、高品質なQAペアを優先することでテキストガイド付き特徴統合を最適化する。これらの基盤に基づいて、我々はFUSIONを3Bと8Bの2つのスケールでトレーニングし、630の視覚トークンだけで既存の手法を大幅に上回る完全モダリティ統合アプローチの有効性を実証する。特に、FUSION 3BはほとんどのベンチマークでCambrian-1 8BとFlorence-VL 8Bを上回る。FUSION 3Bは、視覚トークンを300に制限した場合でもCambrian-1 8Bを上回り続ける。我々のアブレーション研究は、動的解像度なしで同じ設定下でFUSIONがLLaVA-NeXTを過半数のベンチマークで上回ることを示し、我々のアプローチの有効性を強調する。我々はコード、モデル重み、データセットを公開する。https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs)
with a fully vision-language alignment and integration paradigm. Unlike
existing methods that primarily rely on late-stage modality interaction during
LLM decoding, our approach achieves deep, dynamic integration throughout the
entire processing pipeline. To this end, we propose Text-Guided Unified Vision
Encoding, incorporating textual information in vision encoding to achieve
pixel-level integration. We further design Context-Aware Recursive Alignment
Decoding that recursively aggregates visual features conditioned on textual
context during decoding, enabling fine-grained, question-level semantic
integration. To guide feature mapping and mitigate modality discrepancies, we
develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a
Synthesized Language-Driven Question-Answer (QA) dataset through a new data
synthesis method, prioritizing high-quality QA pairs to optimize text-guided
feature integration. Building on these foundations, we train FUSION at two
scales-3B, 8B-and demonstrate that our full-modality integration approach
significantly outperforms existing methods with only 630 vision tokens.
Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most
benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited
to 300 vision tokens. Our ablation studies show that FUSION outperforms
LLaVA-NeXT on over half of the benchmarks under same configuration without
dynamic resolution, highlighting the effectiveness of our approach. We release
our code, model weights, and dataset. https://github.com/starriver030515/FUSIONSummary
AI-Generated Summary