LoMo : Substitution locale de modalités pour une fusion vision-langage plus profonde

Résumé

Les Modèles Vision-Langage (VLM) ont réalisé des progrès substantiels dans un large éventail de tâches de compréhension et de raisonnement, grâce à un entraînement à grande échelle sur des paires image-texte visant à la fusion multimodale. Idéalement, remplacer une question textuelle par son équivalent sous forme d'image rendue ne devrait pas affecter les performances du modèle. En pratique, cependant, une telle substitution de modalité entraîne une dégradation spectaculaire des performances. Nous attribuons ce problème de « sensibilité au support » à un biais inhérent dans les corpus d'entraînement actuels. Dans les jeux de données courants tels que le sous-titrage d'images, la VQA, l'OCR et les données entrelacées issues du web, le texte et les images sont généralement organisés en rôles distincts et asymétriques, le texte servant de requêtes linguistiques et les images de références visuelles. Ce biais de données conduit les VLM à présenter des préférences distinctes pour l'acquisition d'informations selon les différentes modalités. Par conséquent, les VLM ne parviennent pas à aligner les représentations de contenu sémantiquement équivalent entre les supports textuels et visuels, rendant le raisonnement du modèle fragile face à la substitution de modalité. Pour y remédier, nous proposons la Substitution Locale de Modalité (LoMo), un paradigme de curation de données léger et indépendant de l'architecture, conçu pour superviser l'invariance représentationnelle inter-modale entre des supports textuels et imagés sémantiquement équivalents. LoMo y parvient en reformulant des invites unimodales en séquences multimodales parfaitement entrelacées. Il sélectionne dynamiquement des segments de texte cibles et les reformule en images rendues, préservant ainsi la même sémantique à travers les supports « texte, visuel, texte ». Des expériences approfondies sur 13 benchmarks multimodaux diversifiés démontrent que LoMo améliore considérablement le raisonnement multimodal global et permet une fusion inter-modale plus profonde. Plus précisément, il apporte des gains constants sur les modèles fondamentaux, améliorant le SFT standard de 2,67 points sur LLaVA-OneVision-1.5-8B et de 2,82 points sur Qwen3.5-9B.

English

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.