Anisotropes Modalitätsalignment

Zusammenfassung

Das Training multimodaler großer Sprachmodelle wird seit langem durch die Knappheit hochwertiger gepaarter multimodaler Daten eingeschränkt. Aktuelle Studien zeigen, dass der gemeinsame Repräsentationsraum vortrainierter multimodaler Kontrastivmodelle als Brücke dienen kann und es Modellen ermöglicht, multimodales Training mit unimodalen Daten durchzuführen. Die grundlegende Prämisse dieses Paradigmas ist jedoch noch unzureichend verstanden: Können Repräsentationen aus verschiedenen Modalitäten zuverlässig ausgetauscht werden? Das Kernhindernis liegt in der persistenten Modalitätslücke im gemeinsamen Raum. In dieser Arbeit untersuchen wir erneut die geometrische Natur der Modalitätslücke. Wir stellen fest, dass Modalitätsrepräsentationen bereits eine kompatible dominante semantische Geometrie teilen. Was die Austauschbarkeit von Modalitäten tatsächlich behindert, ist keine einfache globale Verschiebung, sondern eine anisotrope Reststruktur, die entlang einer kleinen Anzahl dominanter Richtungen konzentriert ist. Basierend auf dieser Erkenntnis schlagen wir ferner das Prinzip der anisotropen Ausrichtung der Modalitätslücke vor: Eine effektive Modalitätsausrichtung sollte sich an der Verteilung der Zielmodalität ausrichten, während die semantische Struktur der Quellmodalität erhalten bleibt. Unter diesem Prinzip schlagen wir ein anisotropes geometrisches Korrekturframework, AnisoAlign, für die ungepaarte Modalitätsausrichtung vor. Dieses Framework nutzt den internen geometrischen Prior der Zielmodalität und führt eine begrenzte Korrektur an den Repräsentationen der Quellmodalität durch, um so Ersatzrepräsentationen in der Zielmodalität zu konstruieren. Experimente bestätigen seine Vorteile sowohl in der geometrischen Diagnostik als auch im textbasierten MLLM-Training. Insgesamt formuliert diese Arbeit die Modalitätslücke von einer empirischen Beobachtung zu einem korrigierbaren, strukturierten geometrischen Phänomen um und bietet eine neue Perspektive der Repräsentationsausrichtung für das Training multimodaler Modelle mit unimodalen Daten.

English

Training multimodal large language models has long been limited by the scarcity of high-quality paired multimodal data. Recent studies show that the shared representation space of pretrained multimodal contrastive models can serve as a bridge, enabling models to perform multimodal training with unimodal data. However, the key premise of this paradigm remains insufficiently understood: can representations from different modalities be reliably interchanged? The core obstacle lies in the persistent Modality Gap in the shared space. In this work, we revisit the geometric nature of the modality gap. We find that modality representations already share compatible dominant semantic geometry. What truly hinders modality interchangeability is not a simple global shift, but an anisotropic residual structure concentrated along a small number of dominant directions. Based on this finding, we further propose the principle of anisotropic modality gap alignment: effective modality alignment should align with the target-modality distribution while preserving the semantic structure of the source modality. Guided by this principle, we propose an anisotropic geometric correction framework, AnisoAlign, for unpaired modality alignment. This framework leverages the internal geometric prior of the target modality and performs bounded correction on source-modality representations, thereby constructing substitute representations in the target modality. Experiments confirm its benefits in both geometric diagnostics and text-only MLLM training. Overall, this work recasts the modality gap from an empirical observation into a correctable, structured geometric phenomenon and provides a new representation alignment perspective for training multimodal models with unimodal data.

Anisotropes Modalitätsalignment

Anisotropic Modality Align

Zusammenfassung

Support