ChatPaper.aiChatPaper

FUSION: Integración Completa de Representaciones Visión-Lenguaje para una Comprensión Profunda Transmodal

FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding

April 14, 2025
Autores: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI

Resumen

Presentamos FUSION, una familia de modelos de lenguaje multimodal de gran escala (MLLMs) con un paradigma de alineación e integración completa entre visión y lenguaje. A diferencia de los métodos existentes que dependen principalmente de la interacción tardía de modalidades durante la decodificación del LLM, nuestro enfoque logra una integración profunda y dinámica a lo largo de toda la pipeline de procesamiento. Para ello, proponemos Codificación Visual Unificada Guiada por Texto, incorporando información textual en la codificación visual para lograr una integración a nivel de píxeles. Además, diseñamos Decodificación de Alineación Recursiva Consciente del Contexto, que agrega recursivamente características visuales condicionadas por el contexto textual durante la decodificación, permitiendo una integración semántica detallada a nivel de pregunta. Para guiar el mapeo de características y mitigar las discrepancias entre modalidades, desarrollamos la Pérdida de Mapeo Semántico Doblemente Supervisado. Adicionalmente, construimos un conjunto de datos sintetizado de Preguntas y Respuestas (QA) impulsado por lenguaje mediante un nuevo método de síntesis de datos, priorizando pares QA de alta calidad para optimizar la integración de características guiada por texto. Sobre estas bases, entrenamos FUSION en dos escalas—3B y 8B—y demostramos que nuestro enfoque de integración de modalidades completas supera significativamente a los métodos existentes con solo 630 tokens visuales. Notablemente, FUSION 3B supera a Cambrian-1 8B y Florence-VL 8B en la mayoría de los benchmarks. FUSION 3B continúa superando a Cambrian-1 8B incluso cuando se limita a 300 tokens visuales. Nuestros estudios de ablación muestran que FUSION supera a LLaVA-NeXT en más de la mitad de los benchmarks bajo la misma configuración sin resolución dinámica, destacando la efectividad de nuestro enfoque. Publicamos nuestro código, pesos del modelo y conjunto de datos. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs) with a fully vision-language alignment and integration paradigm. Unlike existing methods that primarily rely on late-stage modality interaction during LLM decoding, our approach achieves deep, dynamic integration throughout the entire processing pipeline. To this end, we propose Text-Guided Unified Vision Encoding, incorporating textual information in vision encoding to achieve pixel-level integration. We further design Context-Aware Recursive Alignment Decoding that recursively aggregates visual features conditioned on textual context during decoding, enabling fine-grained, question-level semantic integration. To guide feature mapping and mitigate modality discrepancies, we develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a Synthesized Language-Driven Question-Answer (QA) dataset through a new data synthesis method, prioritizing high-quality QA pairs to optimize text-guided feature integration. Building on these foundations, we train FUSION at two scales-3B, 8B-and demonstrate that our full-modality integration approach significantly outperforms existing methods with only 630 vision tokens. Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited to 300 vision tokens. Our ablation studies show that FUSION outperforms LLaVA-NeXT on over half of the benchmarks under same configuration without dynamic resolution, highlighting the effectiveness of our approach. We release our code, model weights, and dataset. https://github.com/starriver030515/FUSION

Summary

AI-Generated Summary

PDF383April 15, 2025