Persistentes visuelles Gedächtnis: Aufrechterhaltung der Wahrnehmung für tiefe Generierung in LVLMs

Zusammenfassung

Während autoregressive große visuell-sprachliche Modelle (LVLMs) bemerkenswerte Fähigkeiten bei multimodalen Aufgaben demonstrieren, sind sie mit einem "Visual Signal Dilution"-Phänomen konfrontiert, bei dem die Anhäufung von Textverlauf die Aufteilungsfunktion der Aufmerksamkeit erweitert und dazu führt, dass die visuelle Aufmerksamkeit umgekehrt proportional zur Länge der generierten Sequenz abnimmt. Um dem entgegenzuwirken, schlagen wir Persistent Visual Memory (PVM) vor, ein leichtgewichtiges, erlernbares Modul, das darauf ausgelegt ist, eine anhaltende, bedarfsgesteuerte visuelle Wahrnehmung zu gewährleisten. Integriert als paralleler Zweig neben dem Feed-Forward-Netzwerk (FFN) in LVLMs, etabliert PVM einen distanzunabhängigen Abrufpfad, der direkt visuelle Einbettungen für eine präzise visuelle Wahrnehmung bereitstellt und so strukturell der inhärenten Signalsuppression bei tiefer Generierung entgegenwirkt. Umfangreiche Experimente mit Qwen3-VL-Modellen zeigen, dass PVM mit vernachlässigbarem Parameteroverhead deutliche Verbesserungen bringt und durchgängige durchschnittliche Genauigkeitsgewinne sowohl bei 4B- als auch 8B-Modellen erzielt, insbesondere bei komplexen Reasoning-Aufgaben, die anhaltende visuelle Wahrnehmung erfordern. Darüber hinaus zeigt eine eingehende Analyse, dass PVM längeninduzierten Signalverfall widerstehen und die interne Vorhersagekonvergenz beschleunigen kann.

English

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.

Persistentes visuelles Gedächtnis: Aufrechterhaltung der Wahrnehmung für tiefe Generierung in LVLMs

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Zusammenfassung

Support