LoMo: Lokale modaliteitssubstitutie voor diepere visie-taal fusie

Samenvatting

Visie-Taalmodellen (Vision-Language Models, VLMs) hebben aanzienlijke vooruitgang geboekt op een breed scala aan begrips- en redeneertaken, gedreven door grootschalige beeld-teksttraining gericht op multimodale fusie. Idealiter zou het vervangen van een tekstuele vraag door de overeenkomstige weergegeven afbeelding de modelprestaties in wezen ongemoeid laten. In de praktijk leidt een dergelijke modaliteitsvervanging echter tot een drastische prestatievermindering. Wij schrijven dit probleem van 'dragergevoeligheid' toe aan een inherente vertekening in de huidige trainingscorpora. In gangbare datasets zoals beeldonderschriften, VQA, OCR en van het web afkomstige interleaved data worden tekst en afbeeldingen doorgaans georganiseerd in duidelijke en asymmetrische rollen, waarbij tekst fungeert als taalkundige vragen en afbeeldingen als visuele referenties. Deze dataverschuiving leidt ertoe dat VLMs duidelijke voorkeuren vertonen voor het verwerven van informatie via verschillende modaliteiten. Als gevolg hiervan slagen VLMs er niet in om representaties van semantisch equivalente inhoud over tekstuele en visuele dragers op elkaar af te stemmen, waardoor modelredeneren kwetsbaar wordt onder modaliteitsvervanging. Om dit aan te pakken stellen wij Lokale Modaliteitsvervanging (Local Modality Substitution, LoMo) voor, een lichtgewicht, architectuuronafhankelijk datacuratieparadigma dat is ontworpen om supervisie te bieden voor cross-modale representatie-invariantie tussen semantisch equivalente tekst- en beelddragers. LoMo bereikt dit door enkelvoudige modaliteitsprompts om te vormen tot naadloos interleaved multimodale sequenties. Het selecteert dynamisch doeltekstspannes en herinterpreteert deze als weergegeven afbeeldingen, waardoor dezelfde semantiek wordt behouden over 'tekst, visueel, tekst'-dragers. Uitgebreide experimenten over 13 diverse multimodale benchmarks tonen aan dat LoMo de algehele multimodale redenering aanzienlijk verbetert en diepere cross-modale fusie oplevert. Specifiek levert het consistente winst op bij fundamentele modellen, met verbeteringen van 2,67 punten op LLaVA-OneVision-1.5-8B en 2,82 punten op Qwen3.5-9B in vergelijking met standaard SFT.

English

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.