ChatPaper.aiChatPaper

Inverse-LLaVA: Eliminación del Preentrenamiento de Alineación mediante Mapeo de Texto a Visión

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
Autores: Xuhui Zhan, Tyler Derr
cs.AI

Resumen

Los enfoques tradicionales de aprendizaje multimodal requieren un costoso preentrenamiento de alineación para conectar las modalidades de visión y lenguaje, proyectando típicamente características visuales en espacios discretos de tokens de texto. Desafiamos ambos supuestos fundamentales que subyacen a este paradigma al proponer Inverse-LLaVA, un enfoque novedoso que elimina por completo el preentrenamiento de alineación mientras invierte la dirección convencional de mapeo. En lugar de proyectar características visuales al espacio de texto, nuestro método mapea incrustaciones de texto en un espacio de representación visual continua y realiza la fusión dentro de las capas intermedias de transformadores. A través de componentes aditivos selectivos en los mecanismos de atención, permitimos la integración dinámica de representaciones visuales y textuales sin requerir grandes conjuntos de datos de alineación imagen-texto. Experimentos exhaustivos en nueve benchmarks multimodales demuestran matices en las compensaciones de rendimiento: Inverse-LLaVA logra mejoras notables en tareas intensivas en razonamiento y cognitivas (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, razonamiento cognitivo: +27.2%), mientras muestra disminuciones esperadas en tareas de percepción que requieren asociaciones visual-texto memorizadas (reconocimiento de celebridades: -49.5%, OCR: -21.3%). Estos resultados proporcionan la primera evidencia empírica de que el preentrenamiento de alineación no es necesario para un aprendizaje multimodal efectivo, particularmente para tareas de razonamiento complejo. Nuestro trabajo establece la viabilidad de un nuevo paradigma que reduce los requisitos computacionales en un 45%, desafía la sabiduría convencional sobre la fusión de modalidades y abre nuevas direcciones de investigación para arquitecturas multimodales eficientes que preservan las características específicas de cada modalidad. Nuestro sitio web del proyecto con código y recursos adicionales está disponible en https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025