다중 모드 대규모 언어 모델을 위한 양식 간 차이 기반 부분 공간 정렬 훈련 패러다임
Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models
February 2, 2026
저자: Xiaomin Yu, Yi Xin, Wenjie Zhang, Chonghan Liu, Hanzhen Zhao, Xiaoxing Hu, Xinlei Yu, Ziyue Qiao, Hao Tang, Xue Yang, Xiaobin Hu, Chengwei Qin, Hui Xiong, Yu Qiao, Shuicheng Yan
cs.AI
초록
다중 모달 대조 학습이 시각 및 언어 표현의 정렬에 성공했음에도 불구하고, 지속적인 기하학적 이상 현상인 모달리티 갭(Modality Gap)이 존재한다: 동일한 의미를 표현하는 서로 다른 모달리티의 임베딩들이 체계적으로 어긋난 영역을 점유하는 현상이다. 이 간극을 해소하려는 기존 접근법들은 지나치게 단순화된 등방성 가정에 크게 제한되어 대규모 시나리오 적용에 어려움을 겪어왔다. 본 논문에서는 모달리티 갭의 기하학적 형태를 정밀하게 규명하고 이를 효율적인 모델 확장에 활용함으로써 이러한 한계를 해결한다. 먼저, 고정된 기준 프레임 내에서 모달리티 갭을 안정적인 편향과 이방성 잔차로 분해하는 고정 프레임 모달리티 갭 이론(Fixed-frame Modality Gap Theory)을 제안한다. 이 정밀 모델링을 바탕으로, 학습이 필요 없는 모달리티 정렬 전략인 ReAlign을 소개한다. ReAlign은 대규모 비대응 데이터에서 추출한 통계량을 활용하여, 앵커(Anchor), 추적(Trace), 중심점(Centroid) 정렬의 3단계 과정을 통해 텍스트 표현을 이미지 표현 분포로 정렬함으로써 기하학적 오정렬을 명시적으로 수정한다. ReAlign을 기반으로, 다중 모달 대형 언어 모델(Multimodal Large Language Models, MLLMs)을 위한 확장 가능한 학습 패러다임인 ReVision을 제안한다. ReVision은 ReAlign을 사전 학습 단계에 통합하여, 모델이 대규모 고품질 이미지-텍스트 쌍 없이도 시각적 명령어 튜닝 전에 비대응 텍스트로부터 시각 표현의 분포를 학습할 수 있게 한다. 우리의 프레임워크는 통계적으로 정렬된 비대응 데이터가 고비용의 이미지-텍스트 쌍을 효과적으로 대체할 수 있음을 보여주며, MLLMs의 효율적인 확장을 위한 견고한 경로를 제시한다.
English
Despite the success of multimodal contrastive learning in aligning visual and linguistic representations, a persistent geometric anomaly, the Modality Gap, remains: embeddings of distinct modalities expressing identical semantics occupy systematically offset regions. Prior approaches to bridge this gap are largely limited by oversimplified isotropic assumptions, hindering their application in large-scale scenarios. In this paper, we address these limitations by precisely characterizing the geometric shape of the modality gap and leveraging it for efficient model scaling. First, we propose the Fixed-frame Modality Gap Theory, which decomposes the modality gap within a frozen reference frame into stable biases and anisotropic residuals. Guided by this precise modeling, we introduce ReAlign, a training-free modality alignment strategy. Utilizing statistics from massive unpaired data, ReAlign aligns text representation into the image representation distribution via a three-step process comprising Anchor, Trace, and Centroid Alignment, thereby explicitly rectifying geometric misalignment. Building on ReAlign, we propose ReVision, a scalable training paradigm for Multimodal Large Language Models (MLLMs). ReVision integrates ReAlign into the pretraining stage, enabling the model to learn the distribution of visual representations from unpaired text before visual instruction tuning, without the need for large-scale, high-quality image-text pairs. Our framework demonstrates that statistically aligned unpaired data can effectively substitute for expensive image-text pairs, offering a robust path for the efficient scaling of MLLMs.