Paradigma di Addestramento per l'Allineamento di Sottospazi Guidato dal Divario Modale per Modelli Linguistici Multimodali di Grandi Dimensioni
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
February 2, 2026
Autori: Xiaomin Yu, Yi Xin, Wenjie Zhang, Chonghan Liu, Hanzhen Zhao, Xiaoxing Hu, Xinlei Yu, Ziyue Qiao, Hao Tang, Xue Yang, Xiaobin Hu, Chengwei Qin, Hui Xiong, Yu Qiao, Shuicheng Yan
cs.AI
Abstract
Nonostante il successo dell'apprendimento contrastivo multimodale nell'allineare le rappresentazioni visive e linguistiche, persiste un'anomalia geometrica nota come Modality Gap: gli embedding di modalità distinte che esprimono semantica identica occupano regioni sistematicamente traslate. Gli approcci precedenti per colmare questo gap sono largamente limitati da ipotesi isotropiche eccessivamente semplificate, ostacolandone l'applicazione in scenari su larga scala. In questo articolo, affrontiamo queste limitazioni caratterizzando con precisione la forma geometrica del modality gap e sfruttandola per un efficiente scaling del modello. In primo luogo, proponiamo la Teoria del Modality Gap a Telaio Fisso, che scompone il gap modale all'interno di un sistema di riferimento congelato in bias stabili e residui anisotropi. Guidati da questa modellizzazione precisa, introduciamo ReAlign, una strategia di allineamento modale senza training. Utilizzando statistiche provenienti da massicci dati non accoppiati, ReAlign allinea la rappresentazione testuale nella distribuzione della rappresentazione immagine attraverso un processo in tre fasi che comprende Anchor, Trace e Centroid Alignment, correggendo esplicitamente il disallineamento geometrico. Basandoci su ReAlign, proponiamo ReVision, un paradigma di training scalabile per Modelli Linguistici Multimodali di Grande Scala (MLLM). ReVision integra ReAlign nella fase di pre-addestramento, consentendo al modello di apprendere la distribuzione delle rappresentazioni visive da testo non accoppiato prima del visual instruction tuning, senza la necessità di coppie immagine-testo di larga scala e alta qualità. Il nostro framework dimostra che dati non accoppiati ma statisticamente allineati possono sostituire efficacemente le costose coppie immagine-testo, offrendo un percorso solido per lo scaling efficiente degli MLLM.
English
Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality Gap, remains: embeddings of distinct modalities expressing identical semantics occupy systematically offset regions. Prior approaches to bridge this gap are largely limited by oversimplified isotropic assumptions, hindering their application in large-scale scenarios. In this paper, we address these limitations by precisely characterizing the geometric shape of the modality gap and leveraging it for efficient model scaling. First, we propose the Fixed-frame Modality Gap Theory, which decomposes the modality gap within a frozen reference frame into stable biases and anisotropic residuals. Guided by this precise modeling, we introduce ReAlign, a training-free modality alignment strategy. Utilizing statistics from massive unpaired data, ReAlign aligns text representation into the image representation distribution via a three-step process comprising Anchor, Trace, and Centroid Alignment, thereby explicitly rectifying geometric misalignment. Building on ReAlign, we propose ReVision, a scalable training paradigm for Multimodal Large Language Models (MLLMs). ReVision integrates ReAlign into the pretraining stage, enabling the model to learn the distribution of visual representations from unpaired text before visual instruction tuning, without the need for large-scale, high-quality image-text pairs. Our framework demonstrates that statistically aligned unpaired data can effectively substitute for expensive image-text pairs, offering a robust path for the efficient scaling of MLLMs.