Анизотропное выравнивание модальностей

Аннотация

Обучение мультимодальных больших языковых моделей долгое время ограничивалось дефицитом высококачественных парных мультимодальных данных. Недавние исследования показывают, что общее пространство представлений предварительно обученных мультимодальных контрастивных моделей может служить мостом, позволяя моделям выполнять мультимодальное обучение с использованием унимодальных данных. Однако ключевая предпосылка этой парадигмы остается недостаточно изученной: можно ли надежно взаимозаменять представления из разных модальностей? Основное препятствие заключается в устойчивом разрыве модальностей в общем пространстве. В данной работе мы пересматриваем геометрическую природу разрыва модальностей. Мы обнаруживаем, что представления модальностей уже обладают совместимой доминантной семантической геометрией. То, что действительно препятствует взаимозаменяемости модальностей, — это не простой глобальный сдвиг, а анизотропная остаточная структура, сконцентрированная вдоль небольшого числа доминантных направлений. Основываясь на этом открытии, мы далее предлагаем принцип анизотропного выравнивания разрыва модальностей: эффективное выравнивание модальностей должно согласовываться с распределением целевой модальности, сохраняя при этом семантическую структуру исходной модальности. Руководствуясь этим принципом, мы предлагаем анизотропный фреймворк геометрической коррекции, AnisoAlign, для непарного выравнивания модальностей. Этот фреймворк использует внутренний геометрический априор целевой модальности и выполняет ограниченную коррекцию представлений исходной модальности, тем самым конструируя замещающие представления в целевой модальности. Эксперименты подтверждают его преимущества как в геометрической диагностике, так и в обучении MLLM только на тексте. В целом, данная работа переосмысливает разрыв модальностей от эмпирического наблюдения к корректируемому, структурированному геометрическому явлению и предлагает новую перспективу выравнивания представлений для обучения мультимодальных моделей с использованием унимодальных данных.

English

Training multimodal large language models has long been limited by the scarcity of high-quality paired multimodal data. Recent studies show that the shared representation space of pretrained multimodal contrastive models can serve as a bridge, enabling models to perform multimodal training with unimodal data. However, the key premise of this paradigm remains insufficiently understood: can representations from different modalities be reliably interchanged? The core obstacle lies in the persistent Modality Gap in the shared space. In this work, we revisit the geometric nature of the modality gap. We find that modality representations already share compatible dominant semantic geometry. What truly hinders modality interchangeability is not a simple global shift, but an anisotropic residual structure concentrated along a small number of dominant directions. Based on this finding, we further propose the principle of anisotropic modality gap alignment: effective modality alignment should align with the target-modality distribution while preserving the semantic structure of the source modality. Guided by this principle, we propose an anisotropic geometric correction framework, AnisoAlign, for unpaired modality alignment. This framework leverages the internal geometric prior of the target modality and performs bounded correction on source-modality representations, thereby constructing substitute representations in the target modality. Experiments confirm its benefits in both geometric diagnostics and text-only MLLM training. Overall, this work recasts the modality gap from an empirical observation into a correctable, structured geometric phenomenon and provides a new representation alignment perspective for training multimodal models with unimodal data.

Анизотропное выравнивание модальностей

Anisotropic Modality Align

Аннотация

Support