CoMemo : Les LVLM nécessitent un contexte d'image avec une mémoire visuelle
CoMemo: LVLMs Need Image Context with Image Memory
June 6, 2025
Auteurs: Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
cs.AI
Résumé
Les récentes avancées dans les modèles de vision et de langage de grande envergure (Large Vision-Language Models, LVLMs) basés sur des modèles de langage de grande envergure (Large Language Models, LLMs) ont établi l'alignement des caractéristiques visuelles avec les représentations des LLMs comme paradigme dominant. Cependant, les conceptions architecturales héritées des LLMs introduisent des caractéristiques sous-optimales pour le traitement multimodal. Premièrement, les LVLMs présentent une distribution bimodale dans l'allocation de l'attention, conduisant à une négligence progressive du contenu visuel intermédiaire à mesure que le contexte s'étend. Deuxièmement, les schémas conventionnels d'encodage positionnel ne parviennent pas à préserver les relations structurelles 2D essentielles lors du traitement d'images dynamiques à haute résolution. Pour répondre à ces limitations, nous proposons CoMemo - une architecture à double voie qui combine une voie d'image contextuelle avec une voie de mémoire d'image pour le traitement visuel, atténuant efficacement la négligence de l'information visuelle. De plus, nous introduisons RoPE-DHR, un nouveau mécanisme d'encodage positionnel qui utilise une agrégation positionnelle basée sur des miniatures pour maintenir la conscience spatiale 2D tout en atténuant la dégradation à distance dans les séquences étendues. Les évaluations sur sept benchmarks, incluant la compréhension de contexte long, le raisonnement sur plusieurs images et la réponse à des questions visuelles, démontrent la performance supérieure de CoMemo par rapport aux architectures LVLM conventionnelles. La page du projet est disponible à l'adresse https://lalbj.github.io/projects/CoMemo/.
English
Recent advancements in Large Vision-Language Models built upon Large Language
Models have established aligning visual features with LLM representations as
the dominant paradigm. However, inherited LLM architectural designs introduce
suboptimal characteristics for multimodal processing. First, LVLMs exhibit a
bimodal distribution in attention allocation, leading to the progressive
neglect of middle visual content as context expands. Second, conventional
positional encoding schemes fail to preserve vital 2D structural relationships
when processing dynamic high-resolution images. To address these limitations,
we propose CoMemo - a dual-path architecture that combines a Context image path
with an image Memory path for visual processing, effectively alleviating visual
information neglect. Additionally, we introduce RoPE-DHR, a novel positional
encoding mechanism that employs thumbnail-based positional aggregation to
maintain 2D spatial awareness while mitigating remote decay in extended
sequences. Evaluations across seven benchmarks,including long-context
comprehension, multi-image reasoning, and visual question answering,
demonstrate CoMemo's superior performance compared to conventional LVLM
architectures. Project page is available at
https://lalbj.github.io/projects/CoMemo/.