Memoria Visual Persistente: Sosteniendo la Percepción para la Generación Profunda en Modelos de Lenguaje y Visión de Gran Escala

Resumen

Si bien los modelos de lenguaje de visión grandes (LVLM) autoregresivos demuestran una notable competencia en tareas multimodales, se enfrentan a un fenómeno de "Dilución de la Señal Visual", donde la acumulación de historial textual expande la función de partición de la atención, provocando que la atención visual decaiga de forma inversamente proporcional a la longitud de la secuencia generada. Para contrarrestar esto, proponemos Memoria Visual Persistente (PVM), un módulo ligero y entrenable diseñado para garantizar una percepción visual sostenida y bajo demanda. Integrado como una rama paralela junto a la Red de Alimentación hacia Adelante (FFN) en los LVLM, PVM establece una vía de recuperación independiente de la distancia que proporciona directamente incrustaciones visuales para una percepción visual precisa, mitigando así estructuralmente la supresión de señal inherente a la generación profunda. Experimentos exhaustivos en modelos Qwen3-VL demuestran que PVM aporta mejoras notables con una sobrecarga de parámetros insignificante, logrando ganancias consistentes en precisión promedio tanto en escalas de 4B como de 8B, particularmente en tareas de razonamiento complejo que exigen percepción visual persistente. Además, un análisis en profundidad revela que PVM puede resistir la decadencia de la señal inducida por la longitud y acelerar la convergencia de la predicción interna.

English

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.

Memoria Visual Persistente: Sosteniendo la Percepción para la Generación Profunda en Modelos de Lenguaje y Visión de Gran Escala

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Resumen

Support