ChatPaper.aiChatPaper

VisMem: 潜在視覚メモリが解き放つ視覚言語モデルの可能性

VisMem: Latent Vision Memory Unlocks Potential of Vision-Language Models

November 14, 2025
著者: Xinlei Yu, Chengming Xu, Guibin Zhang, Zhangquan Chen, Yudong Zhang, Yongbo He, Peng-Tao Jiang, Jiangning Zhang, Xiaobin Hu, Shuicheng Yan
cs.AI

要旨

視覚言語モデル(VLM)は目覚ましい成功を収めているにもかかわらず、複雑な視覚タスクにおけるその性能は、「視覚処理ボトルネック」、すなわち、長時間の生成過程において視覚的根拠への接地を失い、文脈化された視覚的経験が不足する傾向によって、しばしば阻害されている。ヒトの認知記憶理論、特に短期的で視覚優位な記憶と長期的で意味優位な記憶を区別する理論に着想を得て、我々はVisMemを提案する。これは、VLMに動的な潜在視覚メモリ、すなわち細粒度の知覚保持のための短期モジュールと、抽象的な意味統合のための長期モジュールを装備した、認知理論に沿ったフレームワークである。これらのメモリは推論時にシームレスに呼び出され、VLMが思考と生成の過程全体で知覚的忠実性と意味的一貫性の両方を維持することを可能にする。理解、推論、生成の多様な視覚ベンチマークによる大規模な実験により、VisMemが標準モデルに対して平均11.8%の大幅な性能向上をもたらし、全ての比較手法を凌駕することが明らかとなり、潜在空間メモリ強化の新たなパラダイムを確立した。コードは以下で公開予定である:https://github.com/YU-deep/VisMem.git
English
Despite the remarkable success of Vision-Language Models (VLMs), their performance on a range of complex visual tasks is often hindered by a "visual processing bottleneck": a propensity to lose grounding in visual evidence and exhibit a deficit in contextualized visual experience during prolonged generation. Drawing inspiration from human cognitive memory theory, which distinguishes short-term visually-dominant memory and long-term semantically-dominant memory, we propose VisMem, a cognitively-aligned framework that equips VLMs with dynamic latent vision memories, a short-term module for fine-grained perceptual retention and a long-term module for abstract semantic consolidation. These memories are seamlessly invoked during inference, allowing VLMs to maintain both perceptual fidelity and semantic consistency across thinking and generation. Extensive experiments across diverse visual benchmarks for understanding, reasoning, and generation reveal that VisMem delivers a significant average performance boost of 11.8% relative to the vanilla model and outperforms all counterparts, establishing a new paradigm for latent-space memory enhancement. The code will be available: https://github.com/YU-deep/VisMem.git.
PDF152December 1, 2025