Устойчивая зрительная память: поддержание восприятия для глубокого порождения в крупных визуально-языковых моделях

Аннотация

В то время как авторегрессионные большие визуально-языковые модели (LVLM) демонстрируют впечатляющую эффективность в решении мультимодальных задач, они сталкиваются с феноменом «размытия визуального сигнала», при котором накопление текстовой истории расширяет функцию распределения внимания, вызывая затухание визуального внимания, обратно пропорциональное длине генерируемой последовательности. Для противодействия этому мы предлагаем модуль устойчивой визуальной памяти (PVM) — легковесный обучаемый модуль, предназначенный для обеспечения устойчивого визуального восприятия по требованию. Интегрированный как параллельная ветвь вместе с полносвязным слоем (FFN) в LVLM, PVM создает путь извлечения информации, не зависящий от расстояния, который напрямую предоставляет визуальные эмбеддинги для точного визуального восприятия, тем самым структурно смягчая присущее глубокому генерации подавление сигнала. Многочисленные эксперименты на моделях Qwen3-VL показывают, что PVM обеспечивает значительное улучшение с пренебрежимо малым параметрическим overhead, демонстрируя стабильный прирост средней точности как для масштабов 4B, так и 8B, особенно в сложных задачах логического вывода, требующих устойчивого визуального восприятия. Кроме того, углубленный анализ показывает, что PVM способен противостоять затуханию сигнала, вызванному длиной последовательности, и ускорять внутреннюю сходимость предсказаний.

English

While autoregressive Large Vision-Language Models (LVLMs) demonstrate remarkable proficiency in multimodal tasks, they face a "Visual Signal Dilution" phenomenon, where the accumulation of textual history expands the attention partition function, causing visual attention to decay inversely with generated sequence length. To counteract this, we propose Persistent Visual Memory (PVM), a lightweight learnable module designed to ensure sustained, on-demand visual perception. Integrated as a parallel branch alongside the Feed-Forward Network (FFN) in LVLMs, PVM establishes a distance-agnostic retrieval pathway that directly provides visual embeddings for precise visual perception, thereby structurally mitigating the signal suppression inherent to deep generation. Extensive experiments on Qwen3-VL models demonstrate that PVM brings notable improvements with negligible parameter overhead, delivering consistent average accuracy gains across both 4B and 8B scales, particularly in complex reasoning tasks that demand persistent visual perception. Furthermore, in-depth analysis reveals that PVM can resist length-induced signal decay and accelerate internal prediction convergence.

Устойчивая зрительная память: поддержание восприятия для глубокого порождения в крупных визуально-языковых моделях

Persistent Visual Memory: Sustaining Perception for Deep Generation in LVLMs

Аннотация

Support