ChatPaper.aiChatPaper

Inverse-LLaVA : Élimination du pré-entraînement d'alignement par cartographie texte-vers-vision

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
papers.authors: Xuhui Zhan, Tyler Derr
cs.AI

papers.abstract

Les approches traditionnelles d'apprentissage multimodal nécessitent un pré-entraînement coûteux d'alignement pour relier les modalités visuelles et linguistiques, projetant généralement les caractéristiques visuelles dans des espaces de tokens textuels discrets. Nous remettons en question les deux hypothèses fondamentales sous-jacentes à ce paradigme en proposant Inverse-LLaVA, une nouvelle approche qui élimine entièrement le pré-entraînement d'alignement tout en inversant la direction de projection conventionnelle. Plutôt que de projeter les caractéristiques visuelles dans l'espace textuel, notre méthode mappe les embeddings textuels dans un espace de représentation visuelle continue et effectue la fusion au sein des couches intermédiaires des transformeurs. Grâce à des composants additifs sélectifs dans les mécanismes d'attention, nous permettons une intégration dynamique des représentations visuelles et textuelles sans nécessiter de vastes ensembles de données d'alignement image-texte. Des expériences approfondies sur neuf benchmarks multimodaux démontrent des compromis de performance nuancés : Inverse-LLaVA obtient des améliorations notables sur les tâches intensives en raisonnement et cognitives (MM-VET : +0,2 %, VizWiz : +1,8 %, ScienceQA : +0,2 %, raisonnement cognitif : +27,2 %), tout en montrant des diminutions attendues dans les tâches de perception nécessitant des associations visuelles-textuelles mémorisées (reconnaissance de célébrités : -49,5 %, OCR : -21,3 %). Ces résultats fournissent la première preuve empirique que le pré-entraînement d'alignement n'est pas nécessaire pour un apprentissage multimodal efficace, en particulier pour les tâches de raisonnement complexes. Notre travail établit la faisabilité d'un nouveau paradigme qui réduit les exigences computationnelles de 45 %, remet en question les idées reçues sur la fusion des modalités et ouvre de nouvelles directions de recherche pour des architectures multimodales efficaces qui préservent les caractéristiques spécifiques à chaque modalité. Notre site web de projet avec le code et des ressources supplémentaires est disponible à l'adresse https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025