CoMemo: LVLMs Precisam de Contexto de Imagem com Memória de Imagem
CoMemo: LVLMs Need Image Context with Image Memory
June 6, 2025
Autores: Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
cs.AI
Resumo
Os recentes avanços em Modelos de Visão e Linguagem de Grande Escala (Large Vision-Language Models - LVLMs), construídos sobre Modelos de Linguagem de Grande Escala (Large Language Models - LLMs), estabeleceram o alinhamento de características visuais com representações de LLMs como o paradigma dominante. No entanto, os projetos arquitetônicos herdados dos LLMs introduzem características subótimas para o processamento multimodal. Primeiro, os LVLMs exibem uma distribuição bimodal na alocação de atenção, levando à negligência progressiva do conteúdo visual intermediário à medida que o contexto se expande. Segundo, os esquemas convencionais de codificação posicional falham em preservar relações estruturais 2D vitais ao processar imagens dinâmicas de alta resolução. Para abordar essas limitações, propomos o CoMemo - uma arquitetura de caminho duplo que combina um caminho de imagem de Contexto com um caminho de Memória de imagem para o processamento visual, aliviando efetivamente a negligência de informações visuais. Além disso, introduzimos o RoPE-DHR, um novo mecanismo de codificação posicional que emprega agregação posicional baseada em miniaturas para manter a consciência espacial 2D enquanto mitiga o decaimento remoto em sequências estendidas. Avaliações em sete benchmarks, incluindo compreensão de contexto longo, raciocínio com múltiplas imagens e resposta a perguntas visuais, demonstram o desempenho superior do CoMemo em comparação com as arquiteturas convencionais de LVLMs. A página do projeto está disponível em https://lalbj.github.io/projects/CoMemo/.
English
Recent advancements in Large Vision-Language Models built upon Large Language
Models have established aligning visual features with LLM representations as
the dominant paradigm. However, inherited LLM architectural designs introduce
suboptimal characteristics for multimodal processing. First, LVLMs exhibit a
bimodal distribution in attention allocation, leading to the progressive
neglect of middle visual content as context expands. Second, conventional
positional encoding schemes fail to preserve vital 2D structural relationships
when processing dynamic high-resolution images. To address these limitations,
we propose CoMemo - a dual-path architecture that combines a Context image path
with an image Memory path for visual processing, effectively alleviating visual
information neglect. Additionally, we introduce RoPE-DHR, a novel positional
encoding mechanism that employs thumbnail-based positional aggregation to
maintain 2D spatial awareness while mitigating remote decay in extended
sequences. Evaluations across seven benchmarks,including long-context
comprehension, multi-image reasoning, and visual question answering,
demonstrate CoMemo's superior performance compared to conventional LVLM
architectures. Project page is available at
https://lalbj.github.io/projects/CoMemo/.