ChatPaper.aiChatPaper

FUSION : Intégration complète des représentations vision-langage pour une compréhension intermodale approfondie

FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

April 14, 2025
Auteurs: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI

Résumé

Nous présentons FUSION, une famille de modèles de langage multimodaux de grande taille (MLLMs) basée sur un paradigme d'alignement et d'intégration complète entre vision et langage. Contrairement aux méthodes existantes qui reposent principalement sur une interaction tardive entre modalités lors du décodage des LLMs, notre approche réalise une intégration profonde et dynamique tout au long du pipeline de traitement. Pour ce faire, nous proposons le Text-Guided Unified Vision Encoding, qui intègre des informations textuelles dans l'encodage visuel pour parvenir à une intégration au niveau des pixels. Nous concevons également le Context-Aware Recursive Alignment Decoding, qui agrège de manière récursive les caractéristiques visuelles en fonction du contexte textuel pendant le décodage, permettant ainsi une intégration sémantique fine au niveau des questions. Pour guider la cartographie des caractéristiques et atténuer les divergences entre modalités, nous développons le Dual-Supervised Semantic Mapping Loss. Par ailleurs, nous construisons un ensemble de données de questions-réponses (QA) synthétisées et pilotées par le langage grâce à une nouvelle méthode de synthèse de données, en privilégiant des paires QA de haute qualité pour optimiser l'intégration des caractéristiques guidées par le texte. Sur ces bases, nous entraînons FUSION à deux échelles—3B, 8B—et démontrons que notre approche d'intégration complète des modalités surpasse significativement les méthodes existantes avec seulement 630 tokens visuels. Notamment, FUSION 3B dépasse Cambrian-1 8B et Florence-VL 8B sur la plupart des benchmarks. FUSION 3B continue de surpasser Cambrian-1 8B même lorsqu'il est limité à 300 tokens visuels. Nos études d'ablation montrent que FUSION surpasse LLaVA-NeXT sur plus de la moitié des benchmarks dans la même configuration sans résolution dynamique, soulignant l'efficacité de notre approche. Nous mettons à disposition notre code, les poids des modèles et l'ensemble de données. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs) with a fully vision-language alignment and integration paradigm. Unlike existing methods that primarily rely on late-stage modality interaction during LLM decoding, our approach achieves deep, dynamic integration throughout the entire processing pipeline. To this end, we propose Text-Guided Unified Vision Encoding, incorporating textual information in vision encoding to achieve pixel-level integration. We further design Context-Aware Recursive Alignment Decoding that recursively aggregates visual features conditioned on textual context during decoding, enabling fine-grained, question-level semantic integration. To guide feature mapping and mitigate modality discrepancies, we develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a Synthesized Language-Driven Question-Answer (QA) dataset through a new data synthesis method, prioritizing high-quality QA pairs to optimize text-guided feature integration. Building on these foundations, we train FUSION at two scales-3B, 8B-and demonstrate that our full-modality integration approach significantly outperforms existing methods with only 630 vision tokens. Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited to 300 vision tokens. Our ablation studies show that FUSION outperforms LLaVA-NeXT on over half of the benchmarks under same configuration without dynamic resolution, highlighting the effectiveness of our approach. We release our code, model weights, and dataset. https://github.com/starriver030515/FUSION
PDF383April 15, 2025