ChatPaper.aiChatPaper

Inverse-LLaVA: Beseitigung des Alignment-Pre-trainings durch Text-zu-Vision-Mapping

Inverse-LLaVA: Eliminating Alignment Pre-training Through Text-to-Vision Mapping

August 17, 2025
papers.authors: Xuhui Zhan, Tyler Derr
cs.AI

papers.abstract

Traditionelle multimodale Lernansätze erfordern eine kostspielige Alignment-Vortrainierung, um visuelle und sprachliche Modalitäten zu verbinden, wobei typischerweise visuelle Merkmale in diskrete Texttoken-Räume projiziert werden. Wir stellen beide grundlegenden Annahmen dieses Paradigmas in Frage, indem wir Inverse-LLaVA vorschlagen, einen neuartigen Ansatz, der die Alignment-Vortrainierung vollständig eliminiert und gleichzeitig die konventionelle Abbildungsrichtung umkehrt. Anstatt visuelle Merkmale in den Textraum zu projizieren, bildet unsere Methode Text-Embeddings in einen kontinuierlichen visuellen Repräsentationsraum ab und führt die Fusion innerhalb der Zwischenschichten von Transformern durch. Durch selektive additive Komponenten in den Aufmerksamkeitsmechanismen ermöglichen wir eine dynamische Integration von visuellen und textuellen Repräsentationen, ohne massive Bild-Text-Alignment-Datensätze zu benötigen. Umfassende Experimente über neun multimodale Benchmarks zeigen differenzierte Leistungskompromisse: Inverse-LLaVA erzielt bemerkenswerte Verbesserungen bei aufschlussreichen und kognitiven Aufgaben (MM-VET: +0,2 %, VizWiz: +1,8 %, ScienceQA: +0,2 %, kognitives Schlussfolgern: +27,2 %), während erwartete Rückgänge bei Wahrnehmungsaufgaben, die auswendig gelernte visuell-textuelle Assoziationen erfordern, zu verzeichnen sind (Prominentenerkennung: -49,5 %, OCR: -21,3 %). Diese Ergebnisse liefern den ersten empirischen Beweis, dass Alignment-Vortrainierung für effektives multimodales Lernen, insbesondere für komplexe Schlussfolgerungsaufgaben, nicht notwendig ist. Unsere Arbeit etabliert die Machbarkeit eines neuen Paradigmas, das den Rechenbedarf um 45 % reduziert, konventionelle Weisheiten über Modalitätsfusion herausfordert und neue Forschungsrichtungen für effiziente multimodale Architekturen eröffnet, die modalitätsspezifische Eigenschaften bewahren. Unsere Projektwebsite mit Code und zusätzlichen Ressourcen ist verfügbar unter https://inverse-llava.github.io.
English
Traditional multimodal learning approaches require expensive alignment pre-training to bridge vision and language modalities, typically projecting visual features into discrete text token spaces. We challenge both fundamental assumptions underlying this paradigm by proposing Inverse-LLaVA, a novel approach that eliminates alignment pre-training entirely while inverting the conventional mapping direction. Rather than projecting visual features to text space, our method maps text embeddings into continuous visual representation space and performs fusion within transformer intermediate layers. Through selective additive components in attention mechanisms, we enable dynamic integration of visual and textual representations without requiring massive image-text alignment datasets. Comprehensive experiments across nine multimodal benchmarks demonstrate nuanced performance trade-offs: Inverse-LLaVA achieves notable improvements on reasoning-intensive and cognitive tasks (MM-VET: +0.2%, VizWiz: +1.8%, ScienceQA: +0.2%, cognitive reasoning: +27.2%), while showing expected decreases in perception tasks requiring memorized visual-text associations (celebrity recognition: -49.5%, OCR: -21.3%). These results provide the first empirical evidence that alignment pre-training is not necessary for effective multimodal learning, particularly for complex reasoning tasks. Our work establishes the feasibility of a new paradigm that reduces computational requirements by 45%, challenges conventional wisdom about modality fusion, and opens new research directions for efficient multimodal architectures that preserve modality-specific characteristics. Our project website with code and additional resources is available at https://inverse-llava.github.io.
PDF82August 19, 2025