FUSION: Полная интеграция визуально-языковых представлений для глубокого кросс-модального понимания
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding
April 14, 2025
Авторы: Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang
cs.AI
Аннотация
Мы представляем FUSION — семейство мультимодальных больших языковых моделей (MLLM), основанных на парадигме полного согласования и интеграции визуальной и языковой информации. В отличие от существующих методов, которые в основном полагаются на взаимодействие модальностей на поздних этапах декодирования в LLM, наш подход обеспечивает глубокую и динамическую интеграцию на протяжении всего процесса обработки. Для этого мы предлагаем Text-Guided Unified Vision Encoding, который включает текстовую информацию в процесс кодирования визуальных данных, достигая интеграции на уровне пикселей. Мы также разработали Context-Aware Recursive Alignment Decoding, который рекурсивно агрегирует визуальные признаки с учетом текстового контекста во время декодирования, что позволяет достичь детальной семантической интеграции на уровне вопросов. Для управления отображением признаков и минимизации расхождений между модальностями мы создали Dual-Supervised Semantic Mapping Loss. Кроме того, мы создали синтезированный набор данных Synthesized Language-Driven Question-Answer (QA) с использованием нового метода синтеза данных, уделяя особое внимание высококачественным парам вопрос-ответ для оптимизации текстово-ориентированной интеграции признаков. На основе этих разработок мы обучили FUSION в двух масштабах — 3B и 8B — и продемонстрировали, что наш подход к полной интеграции модальностей значительно превосходит существующие методы, используя всего 630 визуальных токенов. Примечательно, что FUSION 3B превосходит Cambrian-1 8B и Florence-VL 8B на большинстве бенчмарков. FUSION 3B продолжает превосходить Cambrian-1 8B даже при ограничении в 300 визуальных токенов. Наши исследования показывают, что FUSION превосходит LLaVA-NeXT на более чем половине бенчмарков при одинаковой конфигурации без динамического разрешения, что подчеркивает эффективность нашего подхода. Мы публикуем наш код, веса модели и набор данных. https://github.com/starriver030515/FUSION
English
We introduce FUSION, a family of multimodal large language models (MLLMs)
with a fully vision-language alignment and integration paradigm. Unlike
existing methods that primarily rely on late-stage modality interaction during
LLM decoding, our approach achieves deep, dynamic integration throughout the
entire processing pipeline. To this end, we propose Text-Guided Unified Vision
Encoding, incorporating textual information in vision encoding to achieve
pixel-level integration. We further design Context-Aware Recursive Alignment
Decoding that recursively aggregates visual features conditioned on textual
context during decoding, enabling fine-grained, question-level semantic
integration. To guide feature mapping and mitigate modality discrepancies, we
develop Dual-Supervised Semantic Mapping Loss. Additionally, we construct a
Synthesized Language-Driven Question-Answer (QA) dataset through a new data
synthesis method, prioritizing high-quality QA pairs to optimize text-guided
feature integration. Building on these foundations, we train FUSION at two
scales-3B, 8B-and demonstrate that our full-modality integration approach
significantly outperforms existing methods with only 630 vision tokens.
Notably, FUSION 3B surpasses Cambrian-1 8B and Florence-VL 8B on most
benchmarks. FUSION 3B continues to outperform Cambrian-1 8B even when limited
to 300 vision tokens. Our ablation studies show that FUSION outperforms
LLaVA-NeXT on over half of the benchmarks under same configuration without
dynamic resolution, highlighting the effectiveness of our approach. We release
our code, model weights, and dataset. https://github.com/starriver030515/FUSIONSummary
AI-Generated Summary