Переосмысление мультимодального позиционного кодирования в моделях «визуальный язык

Аннотация

Мультимодальное позиционное кодирование играет ключевую роль в моделях "визуальный язык", однако систематические исследования в этой области практически отсутствуют. Мы проводим всесторонний анализ мультимодального ротационного позиционного кодирования (RoPE), исследуя его два основных компонента: дизайн позиций и распределение частот. В результате масштабных экспериментов мы выявили три ключевых принципа: позиционная согласованность, полное использование частотного спектра и сохранение текстовых априорных знаний — что обеспечивает однозначную компоновку, богатое представление и достоверный перенос из предварительно обученной языковой модели. На основе этих инсайтов мы предлагаем Multi-Head RoPE (MHRoPE) и MRoPE-Interleave (MRoPE-I) — два простых и готовых к использованию варианта, не требующих изменений архитектуры. Наши методы стабильно превосходят существующие подходы в различных тестах, демонстрируя значительное улучшение как в общей, так и в детализированной мультимодальной понимающей способности. Код будет доступен по адресу https://github.com/JJJYmmm/Multimodal-RoPEs.

English

Multimodal position encoding is essential for vision-language models, yet there has been little systematic investigation into multimodal position encoding. We conduct a comprehensive analysis of multimodal Rotary Positional Embedding (RoPE) by examining its two core components: position design and frequency allocation. Through extensive experiments, we identify three key guidelines: positional coherence, full frequency utilization, and preservation of textual priors-ensuring unambiguous layout, rich representation, and faithful transfer from the pre-trained LLM. Based on these insights, we propose Multi-Head RoPE (MHRoPE) and MRoPE-Interleave (MRoPE-I), two simple and plug-and-play variants that require no architectural changes. Our methods consistently outperform existing approaches across diverse benchmarks, with significant improvements in both general and fine-grained multimodal understanding. Code will be avaliable at https://github.com/JJJYmmm/Multimodal-RoPEs.

Переосмысление мультимодального позиционного кодирования в моделях «визуальный язык — текст»

Revisiting Multimodal Positional Encoding in Vision-Language Models

Аннотация

Support