Переосмысление мультимодального позиционного кодирования в моделях «визуальный язык — текст»
Revisiting Multimodal Positional Encoding in Vision-Language Models
October 27, 2025
Авторы: Jie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai
cs.AI
Аннотация
Мультимодальное позиционное кодирование играет ключевую роль в моделях "визуальный язык", однако систематические исследования в этой области практически отсутствуют. Мы проводим всесторонний анализ мультимодального ротационного позиционного кодирования (RoPE), исследуя его два основных компонента: дизайн позиций и распределение частот. В результате масштабных экспериментов мы выявили три ключевых принципа: позиционная согласованность, полное использование частотного спектра и сохранение текстовых априорных знаний — что обеспечивает однозначную компоновку, богатое представление и достоверный перенос из предварительно обученной языковой модели. На основе этих инсайтов мы предлагаем Multi-Head RoPE (MHRoPE) и MRoPE-Interleave (MRoPE-I) — два простых и готовых к использованию варианта, не требующих изменений архитектуры. Наши методы стабильно превосходят существующие подходы в различных тестах, демонстрируя значительное улучшение как в общей, так и в детализированной мультимодальной понимающей способности. Код будет доступен по адресу https://github.com/JJJYmmm/Multimodal-RoPEs.
English
Multimodal position encoding is essential for vision-language models, yet
there has been little systematic investigation into multimodal position
encoding. We conduct a comprehensive analysis of multimodal Rotary Positional
Embedding (RoPE) by examining its two core components: position design and
frequency allocation. Through extensive experiments, we identify three key
guidelines: positional coherence, full frequency utilization, and preservation
of textual priors-ensuring unambiguous layout, rich representation, and
faithful transfer from the pre-trained LLM. Based on these insights, we propose
Multi-Head RoPE (MHRoPE) and MRoPE-Interleave (MRoPE-I), two simple and
plug-and-play variants that require no architectural changes. Our methods
consistently outperform existing approaches across diverse benchmarks, with
significant improvements in both general and fine-grained multimodal
understanding. Code will be avaliable at
https://github.com/JJJYmmm/Multimodal-RoPEs.