LoMo: Lokale Modalitätssubstitution für tiefere Vision-Language-Fusion

Zusammenfassung

Vision-Language-Modelle (VLMs) haben durch groß angelegtes Bild-Text-Training zur multimodalen Fusion beachtliche Fortschritte bei einer Vielzahl von Verständnis- und Schlussfolgerungsaufgaben erzielt. Im Idealfall sollte der Austausch einer textuellen Frage durch ihre als Bild dargestellte Entsprechung die Modellleistung im Wesentlichen unbeeinflusst lassen. In der Praxis führt ein solcher Modalitätstausch jedoch zu einer drastischen Leistungsverschlechterung. Wir führen dieses Problem der „Trägerempfindlichkeit“ auf eine inhärente Verzerrung in aktuellen Trainingskorpora zurück. In gängigen Datensätzen wie Bildbeschriftung, VQA, OCR und webbasierten verschränkten Daten sind Text und Bilder typischerweise in unterschiedlichen und asymmetrischen Rollen organisiert, wobei Text als sprachliche Abfrage und Bilder als visuelle Referenz dienen. Eine solche Datenverzerrung führt dazu, dass VLMs unterschiedliche Präferenzen für die Informationsbeschaffung über verschiedene Modalitäten hinweg aufweisen. Folglich gelingt es VLMs nicht, Repräsentationen semantisch äquivalenter Inhalte über textuelle und visuelle Träger hinweg zu angleichen, was die Modellschlussfolgerung bei Modalitätssubstitution angreifbar macht. Um dies zu adressieren, schlagen wir die Lokale Modalitätssubstitution (LoMo) vor, ein leichtgewichtiges, architekturunabhängiges Datenkuratierungsparadigma, das eine Überwachung für die modalitätsübergreifende Repräsentationsinvarianz zwischen semantisch äquivalenten Text- und Bildträgern bereitstellt. LoMo erreicht dies, indem es Eingabeaufforderungen einzelner Modalitäten in nahtlos verschränkte multimodale Sequenzen umformt. Es wählt dynamisch Zieltextspannen aus und wandelt diese in gerenderte Bilder um, wodurch dieselbe Semantik über „Text, Bild, Text“-Träger hinweg erhalten bleibt. Umfangreiche Experimente mit 13 verschiedenen multimodalen Benchmarks zeigen, dass LoMo die gesamte multimodale Schlussfolgerung signifikant verbessert und eine tiefere multimodale Fusion bewirkt. Insbesondere erzielt es konsistente Verbesserungen über grundlegende Modelle hinweg, mit einer Steigerung von 2,67 Punkten gegenüber dem Standard-SFT bei LLaVA-OneVision-1.5-8B und 2,82 Punkten bei Qwen3.5-9B.

English

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.