FUSION: Vollständige Integration von visuell-sprachlichen Repräsentationen für tiefgreifendes cross-modales Verständnis
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
April 14, 2025
Autoren: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Zusammenfassung
Wir stellen FUSION vor, eine Familie multimodaler großer Sprachmodelle (MLLMs) mit einem vollständigen Paradigma zur Vision-Sprach-Ausrichtung und -Integration. Im Gegensatz zu bestehenden Methoden, die sich hauptsächlich auf späte Modalitätsinteraktion während der LLM-Decodierung verlassen, erreicht unser Ansatz eine tiefe, dynamische Integration durch die gesamte Verarbeitungspipeline. Zu diesem Zweck schlagen wir die Text-Guided Unified Vision Encoding vor, das textuelle Informationen in die Vision-Kodierung einbezieht, um eine pixelgenaue Integration zu erreichen. Weiterhin entwerfen wir das Context-Aware Recursive Alignment Decoding, das visuelle Merkmale rekursiv unter Berücksichtigung des textuellen Kontexts während der Decodierung aggregiert und so eine feingranulare, fragenbezogene semantische Integration ermöglicht. Um die Merkmalszuordnung zu steuern und Modalitätsunterschiede zu minimieren, entwickeln wir den Dual-Supervised Semantic Mapping Loss. Zusätzlich erstellen wir einen Synthesized Language-Driven Question-Answer (QA)-Datensatz durch eine neue Datensynthesemethode, die hochwertige QA-Paare priorisiert, um die textgeführte Merkmalsintegration zu optimieren. Auf diesen Grundlagen aufbauend trainieren wir FUSION in zwei Größenordnungen – 3B und 8B – und zeigen, dass unser Ansatz zur Vollmodalitätsintegration bestehende Methoden mit nur 630 Vision-Tokens deutlich übertrifft. Bemerkenswerterweise übertrifft FUSION 3B Cambrian-1 8B und Florence-VL 8B in den meisten Benchmarks. FUSION 3B übertrifft Cambrian-1 8B sogar dann, wenn es auf 300 Vision-Tokens beschränkt ist. Unsere Ablationsstudien zeigen, dass FUSION LLaVA-NeXT in mehr als der Hälfte der Benchmarks unter gleicher Konfiguration ohne dynamische Auflösung übertrifft, was die Effektivität unseres Ansatzes unterstreicht. Wir veröffentlichen unseren Code, die Modellgewichte und den Datensatz. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs)
with a fully vision-language alignment and integration paradigm. Unlike
existing methods that primarily rely on late-stage modality interaction during
LLM decoding, our approach achieves deep, dynamic integration throughout the
entire processing pipeline. To this end, we propose Text-Guided Unified Vision
Encoding, incorporating textual information in vision encoding to achieve
pixel-level integration. We further design Context-Aware Recursive Alignment
Decoding that recursively aggregates visual features conditioned on textual
context during decoding, enabling fine-grained, question-level semantic
integration. To guide feature mapping and mitigate modality discrepancies, we
develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a
Synthesized Language-Driven Question-Answer (QA) dataset through a new data
synthesis method, prioritizing high-quality QA pairs to optimize text-guided
feature integration. Building on these foundations, we train FUSION at two
scales-3B, 8B-and demonstrate that our full-modality integration approach
significantly outperforms existing methods with only 630 vision tokens.
Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most
benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited
to 300 vision tokens. Our ablation studies show that FUSION outperforms
LLaVA-NeXT on over half of the benchmarks under same configuration without
dynamic resolution, highlighting the effectiveness of our approach. We release
our code, model weights, and dataset. https://github.com/starriver030515/FUSIONSummary
AI-Generated Summary