Revisiter l'encodage positionnel multimodal dans les modèles vision-langage
Revisiting Multimodal Positional Encoding in Vision-Language Models
October 27, 2025
papers.authors: Jie Huang, Xuejing Liu, Sibo Song, Ruibing Hou, Hong Chang, Junyang Lin, Shuai Bai
cs.AI
papers.abstract
L'encodage positionnel multimodal est essentiel pour les modèles vision-langage, mais il a fait l'objet de peu d'études systématiques. Nous menons une analyse approfondie de l'Embedding Positionnel Rotatif (RoPE) multimodal en examinant ses deux composantes principales : la conception positionnelle et l'allocation des fréquences. Par le biais d'expériences approfondies, nous identifions trois principes clés : la cohérence positionnelle, l'utilisation complète des fréquences et la préservation des prérequis textuels – garantissant une disposition non ambiguë, une représentation riche et un transfert fidèle depuis le LLM pré-entraîné. Sur la base de ces observations, nous proposons Multi-Head RoPE (MHRoPE) et MRoPE-Interleave (MRoPE-I), deux variantes simples et prêtes à l'emploi qui ne nécessitent aucune modification architecturale. Nos méthodes surpassent constamment les approches existantes sur divers benchmarks, avec des améliorations significatives tant dans la compréhension multimodale générale que fine. Le code sera disponible à l'adresse https://github.com/JJJYmmm/Multimodal-RoPEs.
English
Multimodal position encoding is essential for vision-language models, yet
there has been little systematic investigation into multimodal position
encoding. We conduct a comprehensive analysis of multimodal Rotary Positional
Embedding (RoPE) by examining its two core components: position design and
frequency allocation. Through extensive experiments, we identify three key
guidelines: positional coherence, full frequency utilization, and preservation
of textual priors-ensuring unambiguous layout, rich representation, and
faithful transfer from the pre-trained LLM. Based on these insights, we propose
Multi-Head RoPE (MHRoPE) and MRoPE-Interleave (MRoPE-I), two simple and
plug-and-play variants that require no architectural changes. Our methods
consistently outperform existing approaches across diverse benchmarks, with
significant improvements in both general and fine-grained multimodal
understanding. Code will be avaliable at
https://github.com/JJJYmmm/Multimodal-RoPEs.