ZipVL: Effiziente große Vision-Sprache-Modelle mit dynamischer Token-Verdünnung und KV-Cache-Komprimierung

papers.abstract

Die Effizienz großer Seh-Sprach-Modelle (LVLMs) wird durch das Rechenengpass des Aufmerksamkeitsmechanismus während der Vorausfüllphase und den Speicherengpass beim Abrufen des Schlüssel-Wert (KV)-Caches in der Decodierungsphase eingeschränkt, insbesondere in Szenarien mit hochauflösenden Bildern oder Videos. Visueller Inhalt zeigt oft erhebliche Redundanz, was zu stark spärlichen Aufmerksamkeitskarten innerhalb von LVLMs führt. Diese Sparsamkeit kann genutzt werden, um die Aufmerksamkeitsberechnung zu beschleunigen oder den KV-Cache durch verschiedene Ansätze zu komprimieren. Die meisten Studien konzentrieren sich jedoch darauf, nur einen dieser Engpässe zu bewältigen und unterstützen keine dynamische Anpassung der Sparsamkeit in Bezug auf unterschiedliche Schichten oder Aufgaben ausreichend. In diesem Artikel stellen wir ZipVL vor, ein effizientes Inferenz-Framework, das für LVLMs entwickelt wurde und sowohl Rechen- als auch Speicherengpässe durch eine dynamische Zuweisungsstrategie von wichtigen Tokens löst. Dieses Verhältnis wird adaptiv basierend auf der schichtspezifischen Verteilung der Aufmerksamkeitswerte bestimmt, anstatt auf festen Hyperparametern zu beruhen, wodurch die Effizienz für weniger komplexe Aufgaben verbessert wird, während die Leistung für anspruchsvollere erhalten bleibt. Anschließend wählen wir wichtige Tokens basierend auf ihren normalisierten Aufmerksamkeitswerten aus und führen den Aufmerksamkeitsmechanismus ausschließlich auf diesen wichtigen Tokens durch, um die Vorausfüllphase zu beschleunigen. Um den Speicherengpass in der Decodierungsphase zu mildern, wenden wir eine gemischte Präzisionsquantisierung auf den KV-Cache an, wobei eine hohe Bit-Quantisierung für Caches von wichtigen Tokens verwendet wird, während eine niedrige Bit-Quantisierung für die von geringerer Bedeutung angewendet wird. Unsere Experimente zeigen, dass ZipVL die Vorausfüllphase um das 2,6-fache beschleunigen und den GPU-Speicherverbrauch um 50,0 % reduzieren kann, bei einer minimalen Genauigkeitsreduzierung von nur 0,2 % im Video-MME-Benchmark über das LongVA-7B-Modell, wodurch die Generierungseffizienz von LVLMs effektiv verbessert wird.

English

The efficiency of large vision-language models (LVLMs) is constrained by the computational bottleneck of the attention mechanism during the prefill phase and the memory bottleneck of fetching the key-value (KV) cache in the decoding phase, particularly in scenarios involving high-resolution images or videos. Visual content often exhibits substantial redundancy, resulting in highly sparse attention maps within LVLMs. This sparsity can be leveraged to accelerate attention computation or compress the KV cache through various approaches. However, most studies focus on addressing only one of these bottlenecks and do not adequately support dynamic adjustment of sparsity concerning distinct layers or tasks. In this paper, we present ZipVL, an efficient inference framework designed for LVLMs that resolves both computation and memory bottlenecks through a dynamic ratio allocation strategy of important tokens. This ratio is adaptively determined based on the layer-specific distribution of attention scores, rather than fixed hyper-parameters, thereby improving efficiency for less complex tasks while maintaining high performance for more challenging ones. Then we select important tokens based on their normalized attention scores and perform attention mechanism solely on those important tokens to accelerate the prefill phase. To mitigate the memory bottleneck in the decoding phase, we employ mixed-precision quantization to the KV cache, where high-bit quantization is used for caches of important tokens, while low-bit quantization is applied to those of less importance. Our experiments demonstrate that ZipVL can accelerate the prefill phase by 2.6times and reduce GPU memory usage by 50.0%, with a minimal accuracy reduction of only 0.2% on Video-MME benchmark over LongVA-7B model, effectively enhancing the generation efficiency of LVLMs.

ZipVL: Effiziente große Vision-Sprache-Modelle mit dynamischer Token-Verdünnung und KV-Cache-Komprimierung

ZipVL: Efficient Large Vision-Language Models with Dynamic Token Sparsification and KV Cache Compression

papers.abstract

Support