ChatPaper.aiChatPaper

Inverse-LLaVA: Устранение предварительного обучения на выравнивание через отображение текста в визуальное представление

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
Авторы: Xuhui Zhan, Tyler Derr
cs.AI

Аннотация

Традиционные подходы к многомодальному обучению требуют дорогостоящего предварительного обучения для согласования визуальных и языковых модальностей, обычно проецируя визуальные признаки в пространство дискретных текстовых токенов. Мы оспариваем оба фундаментальных предположения, лежащих в основе этой парадигмы, предлагая Inverse-LLaVA — новый подход, который полностью устраняет необходимость предварительного обучения согласованию, одновременно инвертируя традиционное направление отображения. Вместо проецирования визуальных признаков в текстовое пространство наш метод отображает текстовые эмбеддинги в непрерывное пространство визуальных представлений и выполняет слияние в промежуточных слоях трансформера. Благодаря избирательным аддитивным компонентам в механизмах внимания мы обеспечиваем динамическую интеграцию визуальных и текстовых представлений без необходимости использования массивных наборов данных для согласования изображений и текста. Комплексные эксперименты на девяти многомодальных бенчмарках демонстрируют тонкие компромиссы в производительности: Inverse-LLaVA достигает значительных улучшений в задачах, требующих интенсивного рассуждения и когнитивных навыков (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, когнитивное рассуждение: +27,2%), при этом показывая ожидаемое снижение в задачах восприятия, требующих запоминания визуально-текстовых ассоциаций (распознавание знаменитостей: -49,5%, OCR: -21,3%). Эти результаты предоставляют первые эмпирические доказательства того, что предварительное обучение согласованию не является необходимым для эффективного многомодального обучения, особенно для сложных задач рассуждения. Наша работа устанавливает возможность новой парадигмы, которая сокращает вычислительные требования на 45%, бросает вызов традиционным представлениям о слиянии модальностей и открывает новые направления исследований для эффективных многомодальных архитектур, сохраняющих специфические характеристики модальностей. Наш проект с кодом и дополнительными ресурсами доступен на сайте https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025