Mémoire Visuelle Persistante : Maintenir la Perception pour une Génération Profonde dans les LVLM

Résumé

Bien que les grands modèles de vision et langage (LVLM) autorégressifs démontrent une compétence remarquable dans les tâches multimodales, ils sont confrontés à un phénomène de « dilution du signal visuel », où l'accumulation de l'historique textuel élargit la fonction de partition de l'attention, entraînant une décroissance de l'attention visuelle inversement proportionnelle à la longueur de la séquence générée. Pour contrer cela, nous proposons la Mémoire Visuelle Persistante (PVM), un module léger et adaptable conçu pour assurer une perception visuelle soutenue et à la demande. Intégré en tant que branche parallèle au réseau feed-forward (FFN) dans les LVLM, PVM établis un chemin de récupération indépendant de la distance qui fournit directement des embeddings visuels pour une perception visuelle précise, atténuant ainsi structurellement la suppression de signal inhérente à la génération en profondeur. Des expériences approfondies sur les modèles Qwen3-VL démontrent que PVM apporte des améliorations notables avec une surcharge paramétrique négligeable, offrant des gains de précision moyens constants aux échelles 4B et 8B, particulièrement dans les tâches de raisonnement complexe exigeant une perception visuelle persistante. De plus, une analyse approfondie révèle que PVM peut résister à la dégradation du signal induite par la longueur et accélérer la convergence des prédictions internes.

English

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.

Mémoire Visuelle Persistante : Maintenir la Perception pour une Génération Profonde dans les LVLM

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Résumé

Support