LoMo: Локальная замена модальности для более глубокого слияния зрительной и языковой информации
LoMo: Local Modality Substitution for Deeper Vision-Language Fusion
May 28, 2026
Авторы: Feng Han, Zhixiong Zhang, Zheming Liang, Yibin Wang, Jiaqi Wang
cs.AI
Аннотация
Модели «зрение-язык» (VLM) достигли значительного прогресса в широком спектре задач понимания и рассуждения, чему способствовало крупномасштабное обучение на парах «изображение-текст», направленное на мультимодальное слияние. В идеале замена текстового вопроса на его визуализированное изображение не должна существенно влиять на производительность модели. Однако на практике такая замена модальности приводит к резкому снижению производительности. Мы связываем эту проблему «чувствительности к носителю» с внутренним смещением в современных обучающих корпусах. В распространённых наборах данных, таких как аннотирование изображений, VQA, OCR и веб-данные с чередующимися модальностями, текст и изображения обычно организованы в различные и асимметричные роли: текст выступает в качестве языковых запросов, а изображения — в качестве визуальных ссылок. Такое смещение данных приводит к тому, что VLM демонстрируют различные предпочтения при получении информации из разных модальностей. Следовательно, VLM не могут согласовать представления семантически эквивалентного содержания на текстовых и визуальных носителях, что делает рассуждения модели нестабильными при замене модальности. Для решения этой проблемы мы предлагаем Local Modality Substitution (LoMo) — лёгкий, не зависящий от архитектуры метод курирования данных, предназначенный для обеспечения контроля за кросс-модальной инвариантностью представлений между семантически эквивалентными текстовыми и графическими носителями. LoMo достигает этого путём преобразования одномодальных запросов в плавно чередующиеся мультимодальные последовательности. Он динамически выбирает целевые текстовые фрагменты и переводит их в визуализированные изображения, тем самым сохраняя ту же семантику на носителях «текст, визуал, текст». Обширные эксперименты на 13 разнообразных мультимодальных бенчмарках демонстрируют, что LoMo значительно улучшает общие мультимодальные рассуждения и обеспечивает более глубокое кросс-модальное слияние. В частности, он обеспечивает устойчивый прирост на фундаментальных моделях, превосходя стандартный SFT на 2,67 балла на LLaVA-OneVision-1.5-8B и на 2,82 балла на Qwen3.5-9B.
English
Vision-Language Models (VLMs) have achieved substantial progress across a wide range of understanding and reasoning tasks, driven by large-scale image-text training aimed at multimodal fusion. Ideally, replacing a textual question with its rendered-image counterpart should leave model performance essentially unaffected. In practice, however, such modality substitution induces dramatic performance degradation. We attribute this "carrier sensitivity" issue to an inherent bias in current training corpora. Across prevalent datasets such as image captioning, VQA, OCR, and web-sourced interleaved data, text and images are typically organized into distinct and asymmetric roles, with text serving as linguistic queries and images as visual references. Such data bias leads VLMs to exhibit distinct preferences for information acquisition across different modalities. Consequently, VLMs fail to align representations of semantically equivalent content across textual and visual carriers, making model reasoning fragile under modality substitution. To address this, we propose Local Modality Substitution (LoMo), a lightweight, architecture-agnostic data curation paradigm designed to provide supervision for cross-modal representational invariance between semantically equivalent text and image carriers. LoMo achieves this by reformulating single-modality prompts into seamlessly interleaved multimodal sequences. It dynamically selects target text spans and recasts them as rendered images, thereby preserving the same semantics across "text, visual, text" carriers. Extensive experiments across 13 diverse multimodal benchmarks demonstrate that LoMo significantly improves overall multimodal reasoning and yields deeper cross-modal fusion. Specifically, it delivers consistent gains across foundational models, improving over standard SFT by 2.67 points on LLaVA-OneVision-1.5-8B and 2.82 points on Qwen3.5-9B.