Aanhoudend Visueel Geheugen: Het Behoud van Waarneming voor Diepe Generatie in LVLM's
Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs
May 1, 2026
Auteurs: Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu, Zefeng He, Muxin Fu, Daizong Liu, Wei-Long Zheng, Yu Cheng
cs.AI
Samenvatting
Hoewel autoregressieve grote visueel-taalmodelen (LVLM's) opmerkelijke bekwaamheid vertonen in multimodale taken, kampen ze met een "verdunning van visuele signalen": de opeenstapeling van tekstuele geschiedenis vergroot de partitiefunctie van aandacht, waardoor de visuele aandacht omgekeerd evenredig afneemt met de gegenereerde sequentielengte. Om dit tegen te gaan, stellen wij Persistent Visueel Geheugen (PVM) voor, een lichtgewicht leerbare module die duurzame, op vraag gebaseerde visuele perceptie garandeert. Geïntegreerd als een parallelle tak naast het Feed-Forward Netwerk (FFN) in LVLM's, creëert PVM een afstandsongevoelig retrievpad dat direct visuele inbeddingen verschaft voor precieze visuele perceptie, waardoor de inherente signaalonderdrukking bij diepe generatie structureel wordt gemitigeerd. Uitgebreide experimenten met Qwen3-VL-modellen tonen aan dat PVM aanzienlijke verbeteringen oplevert met verwaarloosbare parameteroverhead, en consistente gemiddelde nauwkeurigheidswinst biedt op zowel 4B- als 8B-schaal, vooral in complexe redeneertaken die aanhoudende visuele perceptie vereisen. Verder toont diepgaande analyse aan dat PVM lengte-geïnduceerde signaalverval kan weerstaan en interne voorspellingsconvergentie versnelt.
English
While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.