ChatPaper.aiChatPaper

Inverse-LLaVA: Eliminando o Pré-treinamento de Alinhamento por meio do Mapeamento Texto-Visão

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
Autores: Xuhui Zhan, Tyler Derr
cs.AI

Resumo

As abordagens tradicionais de aprendizado multimodal exigem um pré-treinamento de alinhamento dispendioso para conectar as modalidades de visão e linguagem, geralmente projetando características visuais em espaços discretos de tokens de texto. Desafiamos ambas as premissas fundamentais subjacentes a esse paradigma ao propor o Inverse-LLaVA, uma nova abordagem que elimina completamente o pré-treinamento de alinhamento enquanto inverte a direção convencional de mapeamento. Em vez de projetar características visuais para o espaço de texto, nosso método mapeia embeddings de texto em um espaço contínuo de representação visual e realiza a fusão dentro das camadas intermediárias de transformadores. Por meio de componentes aditivos seletivos em mecanismos de atenção, permitimos a integração dinâmica de representações visuais e textuais sem a necessidade de grandes conjuntos de dados de alinhamento imagem-texto. Experimentos abrangentes em nove benchmarks multimodais demonstram compensações de desempenho sutis: o Inverse-LLaVA alcança melhorias notáveis em tarefas intensivas em raciocínio e cognitivas (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, raciocínio cognitivo: +27,2%), enquanto mostra quedas esperadas em tarefas de percepção que exigem associações memorizadas entre visão e texto (reconhecimento de celebridades: -49,5%, OCR: -21,3%). Esses resultados fornecem a primeira evidência empírica de que o pré-treinamento de alinhamento não é necessário para um aprendizado multimodal eficaz, particularmente para tarefas complexas de raciocínio. Nosso trabalho estabelece a viabilidade de um novo paradigma que reduz os requisitos computacionais em 45%, desafia a sabedoria convencional sobre a fusão de modalidades e abre novas direções de pesquisa para arquiteturas multimodais eficientes que preservam características específicas de cada modalidade. Nosso site do projeto, com código e recursos adicionais, está disponível em https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025