비전-언어 모델에서의 다중 모달 위치 인코딩 재고
Revisiting Multimodal Positional Encoding in Vision-Language Models
October 27, 2025
저자: Jie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai
cs.AI
초록
다중모달 위치 인코딩은 시각-언어 모델에 필수적이지만, 다중모달 위치 인코딩에 대한 체계적인 연구는 거의 이루어지지 않았습니다. 우리는 다중모달 Rotary Positional Embedding(RoPE)의 두 가지 핵심 구성 요소인 위치 설계와 주파수 할당을 분석하여 포괄적인 연구를 수행합니다. 광범위한 실험을 통해 우리는 세 가지 핵심 지침, 즉 위치 일관성, 전체 주파수 활용, 그리고 사전 훈련된 LLM으로부터의 충실한 전이를 보장하는 텍스트 사전 지식 보존을 확인했습니다. 이러한 통찰을 바탕으로 우리는 아키텍처 변경 없이 적용 가능한 간단한 변형인 Multi-Head RoPE(MHRoPE)와 MRoPE-Interleave(MRoPE-I)를 제안합니다. 우리의 방법은 다양한 벤치마크에서 기존 접근법을 꾸준히 능가하며, 일반적 및 세분화된 다중모달 이해 과제 모두에서 상당한 향상을 보입니다. 코드는 https://github.com/JJJYmmm/Multimodal-RoPEs에서 공개될 예정입니다.
English
Multimodal position encoding is essential for vision-language models, yet
there has been little systematic investigation into multimodal position
encoding. We conduct a comprehensive analysis of multimodal Rotary Positional
Embedding (RoPE) by examining its two core components: position design and
frequency allocation. Through extensive experiments, we identify three key
guidelines: positional coherence, full frequency utilization, and preservation
of textual priors-ensuring unambiguous layout, rich representation, and
faithful transfer from the pre-trained LLM. Based on these insights, we propose
Multi-Head RoPE (MHRoPE) and MRoPE-Interleave (MRoPE-I), two simple and
plug-and-play variants that require no architectural changes. Our methods
consistently outperform existing approaches across diverse benchmarks, with
significant improvements in both general and fine-grained multimodal
understanding. Code will be avaliable at
https://github.com/JJJYmmm/Multimodal-RoPEs.