LoMo: Sustitución Local de Modalidad para una Fusión Visión-Lenguaje más Profunda

Resumen

Los Modelos de Visión-Lenguaje (VLMs) han logrado avances sustanciales en una amplia gama de tareas de comprensión y razonamiento, impulsados por el entrenamiento a gran escala con pares imagen-texto orientado a la fusión multimodal. Idealmente, reemplazar una pregunta textual por su contraparte en imagen renderizada no debería afectar el rendimiento del modelo. Sin embargo, en la práctica, dicha sustitución de modalidad provoca una degradación drástica del rendimiento. Atribuimos este problema de "sensibilidad al soporte" a un sesgo inherente en los corpus de entrenamiento actuales. En conjuntos de datos prevalentes, como subtitulado de imágenes, VQA, OCR y datos intercalados de origen web, el texto y las imágenes suelen organizarse en roles distintos y asimétricos, donde el texto actúa como consulta lingüística y las imágenes como referencias visuales. Este sesgo en los datos lleva a los VLMs a mostrar preferencias distintas en la adquisición de información según la modalidad. En consecuencia, los VLMs no logran alinear las representaciones de contenido semánticamente equivalente entre soportes textuales y visuales, lo que vuelve frágil el razonamiento del modelo ante la sustitución de modalidad. Para abordar esto, proponemos la Sustitución Local de Modalidad (LoMo), un paradigma ligero de curación de datos, independiente de la arquitectura, diseñado para proporcionar supervisión sobre la invariancia representacional entre modalidades para contenido semánticamente equivalente entre soportes textuales y visuales. LoMo logra esto reformulando indicaciones de modalidad única en secuencias multimodales intercaladas de forma fluida. Selecciona dinámicamente fragmentos de texto objetivo y los reconvierte en imágenes renderizadas, preservando así la misma semántica a través de soportes "texto, visual, texto". Experimentos exhaustivos en 13 conjuntos de datos multimodales diversos demuestran que LoMo mejora significativamente el razonamiento multimodal general y produce una fusión multimodal más profunda. En concreto, ofrece mejoras consistentes en modelos fundacionales, incrementando el rendimiento sobre el Ajuste Fino Supervisado (SFT) estándar en 2,67 puntos en LLaVA-OneVision-1.5-8B y 2,82 puntos en Qwen3.5-9B.

English

Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.