LoMo: Substituição Local de Modalidade para Fusão Mais Profunda de Visão e Linguagem

Resumo

Modelos de Visão e Linguagem (MVLs) alcançaram progressos substanciais em uma ampla gama de tarefas de compreensão e raciocínio, impulsionados por treinamento em larga escala com pares imagem-texto visando a fusão multimodal. Idealmente, substituir uma pergunta textual por sua contraparte em imagem renderizada não deveria afetar o desempenho do modelo. Na prática, no entanto, essa substituição de modalidade induz uma degradação drástica no desempenho. Atribuímos essa questão de "sensibilidade ao suporte" a um viés inerente nos corpora de treinamento atuais. Em conjuntos de dados prevalentes, como descrição de imagens, VQA, OCR e dados intercalados da web, texto e imagens são tipicamente organizados em papéis distintos e assimétricos, com o texto servindo como consultas linguísticas e as imagens como referências visuais. Esse viés nos dados leva os MVLs a exibirem preferências distintas pela aquisição de informações entre diferentes modalidades. Consequentemente, os MVLs falham em alinhar representações de conteúdo semanticamente equivalente entre suportes textuais e visuais, tornando o raciocínio do modelo frágil sob substituição de modalidade. Para abordar isso, propomos a Substituição Local de Modalidade (LoMo), um paradigma de curadoria de dados leve e independente de arquitetura, projetado para fornecer supervisão para a invariância representacional entre modalidades para suportes de texto e imagem semanticamente equivalentes. O LoMo alcança isso reformulando prompts de modalidade única em sequências multimodais perfeitamente intercaladas. Ele seleciona dinamicamente trechos de texto alvo e os recria como imagens renderizadas, preservando assim a mesma semântica entre os suportes "texto, visual, texto". Experimentos extensivos em 13 benchmarks multimodais diversos demonstram que o LoMo melhora significativamente o raciocínio multimodal geral e proporciona uma fusão cross-modal mais profunda. Especificamente, ele oferece ganhos consistentes em modelos fundamentais, melhorando o SFT padrão em 2,67 pontos no LLaVA-OneVision-1.5-8B e 2,82 pontos no Qwen3.5-9B.

English

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.