Modalidad Anisotrópica Alineada

Resumen

El entrenamiento de modelos de lenguaje multimodal de gran escala ha estado limitado históricamente por la escasez de datos multimodales emparejados de alta calidad. Estudios recientes demuestran que el espacio de representación compartido de modelos contrastivos multimodales preentrenados puede servir como puente, permitiendo a los modelos realizar entrenamiento multimodal con datos unimodales. Sin embargo, la premisa clave de este paradigma sigue sin comprenderse adecuadamente: ¿pueden las representaciones de diferentes modalidades intercambiarse de manera confiable? El obstáculo principal radica en la persistente Brecha Modal en el espacio compartido. En este trabajo, revisitamos la naturaleza geométrica de la brecha modal. Descubrimos que las representaciones modales ya comparten una geometría semántica dominante compatible. Lo que realmente dificulta la intercambiabilidad modal no es un simple desplazamiento global, sino una estructura residual anisotrópica concentrada a lo largo de un pequeño número de direcciones dominantes. Con base en este hallazgo, proponemos el principio de alineación anisotrópica de la brecha modal: una alineación modal efectiva debe alinearse con la distribución de la modalidad objetivo mientras preserva la estructura semántica de la modalidad fuente. Guiados por este principio, proponemos un marco de corrección geométrica anisotrópica, AnisoAlign, para la alineación modal no emparejada. Este marco aprovecha el conocimiento geométrico interno de la modalidad objetivo y realiza correcciones acotadas en las representaciones de la modalidad fuente, construyendo así representaciones sustitutas en la modalidad objetivo. Los experimentos confirman sus beneficios tanto en diagnósticos geométricos como en el entrenamiento de MLLM con solo texto. En conjunto, este trabajo reformula la brecha modal desde una observación empírica hacia un fenómeno geométrico estructurado y corregible, ofreciendo una nueva perspectiva de alineación de representaciones para entrenar modelos multimodales con datos unimodales.

English

Training multimodal large language models has long been limited by the scarcity of high-quality paired multimodal data. Recent studies show that the shared representation space of pretrained multimodal contrastive models can serve as a bridge, enabling models to perform multimodal training with unimodal data. However, the key premise of this paradigm remains insufficiently understood: can representations from different modalities be reliably interchanged? The core obstacle lies in the persistent Modality Gap in the shared space. In this work, we revisit the geometric nature of the modality gap. We find that modality representations already share compatible dominant semantic geometry. What truly hinders modality interchangeability is not a simple global shift, but an anisotropic residual structure concentrated along a small number of dominant directions. Based on this finding, we further propose the principle of anisotropic modality gap alignment: effective modality alignment should align with the target-modality distribution while preserving the semantic structure of the source modality. Guided by this principle, we propose an anisotropic geometric correction framework, AnisoAlign, for unpaired modality alignment. This framework leverages the internal geometric prior of the target modality and performs bounded correction on source-modality representations, thereby constructing substitute representations in the target modality. Experiments confirm its benefits in both geometric diagnostics and text-only MLLM training. Overall, this work recasts the modality gap from an empirical observation into a correctable, structured geometric phenomenon and provides a new representation alignment perspective for training multimodal models with unimodal data.

Modalidad Anisotrópica Alineada

Anisotropic Modality Align

Resumen

Support