ChatPaper.aiChatPaper

Inverse-LLaVA: Eliminare il Pre-Addestramento di Allineamento Attraverso la Mappatura da Testo a Visione

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
Autori: Xuhui Zhan, Tyler Derr
cs.AI

Abstract

Gli approcci tradizionali di apprendimento multimodale richiedono un costoso pre-addestramento di allineamento per collegare le modalità visiva e linguistica, tipicamente proiettando le caratteristiche visive in spazi discreti di token testuali. Mettiamo in discussione entrambe le ipotesi fondamentali alla base di questo paradigma proponendo Inverse-LLaVA, un nuovo approccio che elimina completamente il pre-addestramento di allineamento invertendo la direzione di mappatura convenzionale. Invece di proiettare le caratteristiche visive nello spazio testuale, il nostro metodo mappa gli embedding testuali nello spazio continuo delle rappresentazioni visive e esegue la fusione all'interno degli strati intermedi del transformer. Attraverso componenti additivi selettivi nei meccanismi di attenzione, abilitiamo l'integrazione dinamica delle rappresentazioni visive e testuali senza richiedere enormi dataset di allineamento immagine-testo. Esperimenti completi su nove benchmark multimodali dimostrano compromessi di performance sfumati: Inverse-LLaVA ottiene miglioramenti significativi su compiti intensivi di ragionamento e cognitivi (MM-VET: +0,2%, VizWiz: +1,8%, ScienceQA: +0,2%, ragionamento cognitivo: +27,2%), mostrando al contempo diminuzioni attese nei compiti di percezione che richiedono associazioni visivo-testuali memorizzate (riconoscimento di celebrità: -49,5%, OCR: -21,3%). Questi risultati forniscono la prima evidenza empirica che il pre-addestramento di allineamento non è necessario per un apprendimento multimodale efficace, in particolare per compiti di ragionamento complessi. Il nostro lavoro stabilisce la fattibilità di un nuovo paradigma che riduce i requisiti computazionali del 45%, sfida la saggezza convenzionale sulla fusione delle modalità e apre nuove direzioni di ricerca per architetture multimodali efficienti che preservano le caratteristiche specifiche delle modalità. Il sito web del nostro progetto con codice e risorse aggiuntive è disponibile all'indirizzo https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025