FUSION: Integração Completa de Representações Visão-Linguagem para Compreensão Profunda Transmodal
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
April 14, 2025
Autores: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Resumo
Apresentamos o FUSION, uma família de modelos de linguagem multimodal de grande escala (MLLMs) com um paradigma completo de alinhamento e integração visão-linguagem. Diferentemente dos métodos existentes que dependem principalmente da interação tardia de modalidades durante a decodificação do LLM, nossa abordagem alcança uma integração profunda e dinâmica em todo o pipeline de processamento. Para isso, propomos o Text-Guided Unified Vision Encoding, que incorpora informações textuais na codificação visual para alcançar integração em nível de pixel. Além disso, projetamos o Context-Aware Recursive Alignment Decoding, que agrega recursivamente características visuais condicionadas ao contexto textual durante a decodificação, permitindo uma integração semântica refinada em nível de pergunta. Para orientar o mapeamento de características e mitigar discrepâncias entre modalidades, desenvolvemos o Dual-Supervised Semantic Mapping Loss. Adicionalmente, construímos um conjunto de dados Synthesized Language-Driven Question-Answer (QA) por meio de um novo método de síntese de dados, priorizando pares QA de alta qualidade para otimizar a integração de características guiada por texto. Com base nesses fundamentos, treinamos o FUSION em duas escalas—3B e 8B—e demonstramos que nossa abordagem de integração de modalidade completa supera significativamente os métodos existentes com apenas 630 tokens visuais. Notavelmente, o FUSION 3B supera o Cambrian-1 8B e o Florence-VL 8B na maioria dos benchmarks. O FUSION 3B continua a superar o Cambrian-1 8B mesmo quando limitado a 300 tokens visuais. Nossos estudos de ablação mostram que o FUSION supera o LLaVA-NeXT em mais da metade dos benchmarks sob a mesma configuração sem resolução dinâmica, destacando a eficácia de nossa abordagem. Disponibilizamos nosso código, pesos do modelo e conjunto de dados. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs)
with a fully vision-language alignment and integration paradigm. Unlike
existing methods that primarily rely on late-stage modality interaction during
LLM decoding, our approach achieves deep, dynamic integration throughout the
entire processing pipeline. To this end, we propose Text-Guided Unified Vision
Encoding, incorporating textual information in vision encoding to achieve
pixel-level integration. We further design Context-Aware Recursive Alignment
Decoding that recursively aggregates visual features conditioned on textual
context during decoding, enabling fine-grained, question-level semantic
integration. To guide feature mapping and mitigate modality discrepancies, we
develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a
Synthesized Language-Driven Question-Answer (QA) dataset through a new data
synthesis method, prioritizing high-quality QA pairs to optimize text-guided
feature integration. Building on these foundations, we train FUSION at two
scales-3B, 8B-and demonstrate that our full-modality integration approach
significantly outperforms existing methods with only 630 vision tokens.
Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most
benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited
to 300 vision tokens. Our ablation studies show that FUSION outperforms
LLaVA-NeXT on over half of the benchmarks under same configuration without
dynamic resolution, highlighting the effectiveness of our approach. We release
our code, model weights, and dataset. https://github.com/starriver030515/FUSIONSummary
AI-Generated Summary