Ein Bild ist nach Schicht 2 die Hälfte eines Tokens wert: Plug-and-Play Inferenzbeschleunigung für große Vision-Sprach-Modelle

papers.abstract

In dieser Studie identifizieren wir ineffiziente Aufmerksamkeitsphänomene in großen Vision-Sprach-Modellen (LVLMs), insbesondere in prominenten Modellen wie LLaVA-1.5, QwenVL-Chat und Video-LLaVA. Wir stellen fest, dass die Aufmerksamkeitsberechnung über visuelle Token in den tiefen Schichten beliebter LVLMs äußerst ineffizient ist und darauf hinweist, dass ein spärlicherer Ansatz im Vergleich zur Handhabung von Textdaten erforderlich ist. Zu diesem Zweck führen wir FastV ein, eine vielseitige Plug-and-Play-Methode, die darauf abzielt, die Rechenleistung zu optimieren, indem sie adaptive Aufmerksamkeitsmuster in den frühen Schichten lernt und visuelle Token in den folgenden Schichten beschneidet. Unsere Bewertungen zeigen die Fähigkeit von FastV, die Rechenkosten drastisch zu senken (z. B. eine Reduzierung um 45 % der FLOPs für LLaVA-1.5-13B), ohne die Leistung bei einer Vielzahl von Bild- und Videoverständnisaufgaben zu beeinträchtigen. Der Kompromiss zwischen Rechenleistung und Leistung von FastV ist hochgradig anpassbar und pareto-effizient. Es kann die FLOPs eines 13B-Parameter-Modells komprimieren, um ein niedrigeres Budget als das eines 7B-Parameter-Modells zu erreichen, und dabei dennoch eine überlegene Leistung beibehalten. Wir sind der Meinung, dass FastV praktischen Nutzen für den Einsatz von LVLMs in Edge-Geräten und kommerziellen Modellen hat. Der Code ist unter https://github.com/pkunlp-icler/FastV verfügbar.

English

In this study, we identify the inefficient attention phenomena in Large Vision-Language Models (LVLMs), notably within prominent models like LLaVA-1.5, QwenVL-Chat and Video-LLaVA. We find out that the attention computation over visual tokens is of extreme inefficiency in the deep layers of popular LVLMs, suggesting a need for a sparser approach compared to textual data handling. To this end, we introduce FastV, a versatile plug-and-play method designed to optimize computational efficiency by learning adaptive attention patterns in early layers and pruning visual tokens in subsequent ones. Our evaluations demonstrate FastV's ability to dramatically reduce computational costs (e.g., a 45 reduction in FLOPs for LLaVA-1.5-13B) without sacrificing performance in a wide range of image and video understanding tasks. The computational efficiency and performance trade-off of FastV are highly customizable and pareto-efficient. It can compress the FLOPs of a 13B-parameter model to achieve a lower budget than that of a 7B-parameter model, while still maintaining superior performance. We believe FastV has practical values for deployment of LVLMs in edge devices and commercial models. Code is released at https://github.com/pkunlp-icler/FastV.

Ein Bild ist nach Schicht 2 die Hälfte eines Tokens wert: Plug-and-Play Inferenzbeschleunigung für große Vision-Sprach-Modelle

An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models

papers.abstract

Support