ChatPaper.aiChatPaper

CoMemo: LVLMs benötigen Bildkontext mit Bildgedächtnis

CoMemo: LVLMs Need Image Context with Image Memory

June 6, 2025
Autoren: Shi Liu, Weijie Su, Xizhou Zhu, Wenhai Wang, Jifeng Dai
cs.AI

Zusammenfassung

Jüngste Fortschritte bei großen visuell-sprachlichen Modellen, die auf großen Sprachmodellen basieren, haben die Ausrichtung visueller Merkmale an den Repräsentationen von Sprachmodellen als dominantes Paradigma etabliert. Allerdings führen die übernommenen architektonischen Designs der Sprachmodelle zu suboptimalen Eigenschaften für die multimodale Verarbeitung. Erstens zeigen große visuell-sprachliche Modelle eine bimodale Verteilung in der Aufmerksamkeitszuweisung, was zu einer zunehmenden Vernachlässigung mittlerer visueller Inhalte führt, wenn der Kontext erweitert wird. Zweitens scheitern konventionelle Positionskodierungsschemata daran, wichtige 2D-Strukturbeziehungen bei der Verarbeitung dynamischer hochauflösender Bilder zu bewahren. Um diese Einschränkungen zu überwinden, schlagen wir CoMemo vor – eine Dual-Path-Architektur, die einen Kontextbildpfad mit einem Bildspeicherpfad für die visuelle Verarbeitung kombiniert und so die Vernachlässigung visueller Informationen effektiv reduziert. Zusätzlich führen wir RoPE-DHR ein, einen neuartigen Positionskodierungsmechanismus, der eine thumbnail-basierte Positionsaggregation verwendet, um das 2D-Raumbewusstsein zu erhalten und gleichzeitig den Fernzerfall in langen Sequenzen zu mildern. Bewertungen über sieben Benchmarks, einschließlich Langzeitkontextverständnis, Multi-Bild-Schlussfolgerung und visueller Fragebeantwortung, demonstrieren die überlegene Leistung von CoMemo im Vergleich zu konventionellen Architekturen großer visuell-sprachlicher Modelle. Die Projektseite ist verfügbar unter https://lalbj.github.io/projects/CoMemo/.
English
Recent advancements in Large Vision-Language Models built upon Large Language Models have established aligning visual features with LLM representations as the dominant paradigm. However, inherited LLM architectural designs introduce suboptimal characteristics for multimodal processing. First, LVLMs exhibit a bimodal distribution in attention allocation, leading to the progressive neglect of middle visual content as context expands. Second, conventional positional encoding schemes fail to preserve vital 2D structural relationships when processing dynamic high-resolution images. To address these limitations, we propose CoMemo - a dual-path architecture that combines a Context image path with an image Memory path for visual processing, effectively alleviating visual information neglect. Additionally, we introduce RoPE-DHR, a novel positional encoding mechanism that employs thumbnail-based positional aggregation to maintain 2D spatial awareness while mitigating remote decay in extended sequences. Evaluations across seven benchmarks,including long-context comprehension, multi-image reasoning, and visual question answering, demonstrate CoMemo's superior performance compared to conventional LVLM architectures. Project page is available at https://lalbj.github.io/projects/CoMemo/.
PDF62June 19, 2025