CoMemo: LVLMs benötigen Bildkontext mit Bildgedächtnis
CoMemo: LVLMs Need Image Context with Image Memory
June 6, 2025
Autoren: Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
cs.AI
Zusammenfassung
Jüngste Fortschritte bei großen visuell-sprachlichen Modellen, die auf großen Sprachmodellen basieren, haben die Ausrichtung visueller Merkmale an den Repräsentationen von Sprachmodellen als dominantes Paradigma etabliert. Allerdings führen die übernommenen architektonischen Designs der Sprachmodelle zu suboptimalen Eigenschaften für die multimodale Verarbeitung. Erstens zeigen große visuell-sprachliche Modelle eine bimodale Verteilung in der Aufmerksamkeitszuweisung, was zu einer zunehmenden Vernachlässigung mittlerer visueller Inhalte führt, wenn der Kontext erweitert wird. Zweitens scheitern konventionelle Positionskodierungsschemata daran, wichtige 2D-Strukturbeziehungen bei der Verarbeitung dynamischer hochauflösender Bilder zu bewahren. Um diese Einschränkungen zu überwinden, schlagen wir CoMemo vor – eine Dual-Path-Architektur, die einen Kontextbildpfad mit einem Bildspeicherpfad für die visuelle Verarbeitung kombiniert und so die Vernachlässigung visueller Informationen effektiv reduziert. Zusätzlich führen wir RoPE-DHR ein, einen neuartigen Positionskodierungsmechanismus, der eine thumbnail-basierte Positionsaggregation verwendet, um das 2D-Raumbewusstsein zu erhalten und gleichzeitig den Fernzerfall in langen Sequenzen zu mildern. Bewertungen über sieben Benchmarks, einschließlich Langzeitkontextverständnis, Multi-Bild-Schlussfolgerung und visueller Fragebeantwortung, demonstrieren die überlegene Leistung von CoMemo im Vergleich zu konventionellen Architekturen großer visuell-sprachlicher Modelle. Die Projektseite ist verfügbar unter https://lalbj.github.io/projects/CoMemo/.
English
Recent advancements in Large Vision-Language Models built upon Large Language
Models have established aligning visual features with LLM representations as
the dominant paradigm. However, inherited LLM architectural designs introduce
suboptimal characteristics for multimodal processing. First, LVLMs exhibit a
bimodal distribution in attention allocation, leading to the progressive
neglect of middle visual content as context expands. Second, conventional
positional encoding schemes fail to preserve vital 2D structural relationships
when processing dynamic high-resolution images. To address these limitations,
we propose CoMemo - a dual-path architecture that combines a Context image path
with an image Memory path for visual processing, effectively alleviating visual
information neglect. Additionally, we introduce RoPE-DHR, a novel positional
encoding mechanism that employs thumbnail-based positional aggregation to
maintain 2D spatial awareness while mitigating remote decay in extended
sequences. Evaluations across seven benchmarks,including long-context
comprehension, multi-image reasoning, and visual question answering,
demonstrate CoMemo's superior performance compared to conventional LVLM
architectures. Project page is available at
https://lalbj.github.io/projects/CoMemo/.