VisionZip: Länger ist besser, aber nicht notwendig bei Vision-Sprachmodellen

VisionZip: Longer is Better but Not Necessary in Vision Language Models

December 5, 2024
Autoren: Senqiao Yang, Yukang Chen, Zhuotao Tian, Chengyao Wang, Jingyao Li, Bei Yu, Jiaya Jia
cs.AI

Zusammenfassung

In jüngster Zeit haben Fortschritte bei Modellen für die Verbindung von Vision und Sprache die Leistung gesteigert, indem die Länge der visuellen Tokens erhöht wurde, sodass sie deutlich länger sind als Texttokens und die Rechenkosten erheblich steigen. Wir beobachten jedoch, dass die visuellen Tokens, die von beliebten Vision-Encodern wie CLIP und SigLIP generiert werden, erhebliche Redundanzen enthalten. Um dem entgegenzuwirken, stellen wir VisionZip vor, eine einfache, aber effektive Methode, die eine Reihe von informativen Tokens für die Eingabe in das Sprachmodell auswählt, um die Redundanz der visuellen Tokens zu reduzieren und die Effizienz zu verbessern, während die Modellleistung beibehalten wird. Das vorgeschlagene VisionZip kann weitreichend auf Bild- und Videoverständnisaufgaben angewendet werden und eignet sich gut für Mehrfachdialoge in realen Szenarien, in denen frühere Methoden dazu neigen, schlechter abzuschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die bisherige State-of-the-Art-Methode um mindestens 5% Leistungsgewinn in nahezu allen Einstellungen übertrifft. Darüber hinaus verbessert unsere Methode signifikant die Modellinferenzgeschwindigkeit, indem die Vorabfüllzeit um das Achtfache verkürzt wird und es dem LLaVA-Next 13B-Modell ermöglicht wird, schneller zu inferieren als das LLaVA-Next 7B-Modell bei gleichzeitig besseren Ergebnissen. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und ermutigen die Gemeinschaft, sich darauf zu konzentrieren, bessere visuelle Merkmale zu extrahieren, anstatt einfach nur die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.
English
Recent advancements in vision-language models have enhanced performance by increasing the length of visual tokens, making them much longer than text tokens and significantly raising computational costs. However, we observe that the visual tokens generated by popular vision encoders, such as CLIP and SigLIP, contain significant redundancy. To address this, we introduce VisionZip, a simple yet effective method that selects a set of informative tokens for input to the language model, reducing visual token redundancy and improving efficiency while maintaining model performance. The proposed VisionZip can be widely applied to image and video understanding tasks and is well-suited for multi-turn dialogues in real-world scenarios, where previous methods tend to underperform. Experimental results show that VisionZip outperforms the previous state-of-the-art method by at least 5% performance gains across nearly all settings. Moreover, our method significantly enhances model inference speed, improving the prefilling time by 8x and enabling the LLaVA-Next 13B model to infer faster than the LLaVA-Next 7B model while achieving better results. Furthermore, we analyze the causes of this redundancy and encourage the community to focus on extracting better visual features rather than merely increasing token length. Our code is available at https://github.com/dvlab-research/VisionZip .
PDF11613December 6, 2024