VisionZip: Länger ist besser, aber nicht notwendig bei Vision-SprachmodellenVisionZip: Longer is Better but Not Necessary in Vision Language Models
In jüngster Zeit haben Fortschritte bei Modellen für die Verbindung von Vision und Sprache die Leistung gesteigert, indem die Länge der visuellen Tokens erhöht wurde, sodass sie deutlich länger sind als Texttokens und die Rechenkosten erheblich steigen. Wir beobachten jedoch, dass die visuellen Tokens, die von beliebten Vision-Encodern wie CLIP und SigLIP generiert werden, erhebliche Redundanzen enthalten. Um dem entgegenzuwirken, stellen wir VisionZip vor, eine einfache, aber effektive Methode, die eine Reihe von informativen Tokens für die Eingabe in das Sprachmodell auswählt, um die Redundanz der visuellen Tokens zu reduzieren und die Effizienz zu verbessern, während die Modellleistung beibehalten wird. Das vorgeschlagene VisionZip kann weitreichend auf Bild- und Videoverständnisaufgaben angewendet werden und eignet sich gut für Mehrfachdialoge in realen Szenarien, in denen frühere Methoden dazu neigen, schlechter abzuschneiden. Experimentelle Ergebnisse zeigen, dass VisionZip die bisherige State-of-the-Art-Methode um mindestens 5% Leistungsgewinn in nahezu allen Einstellungen übertrifft. Darüber hinaus verbessert unsere Methode signifikant die Modellinferenzgeschwindigkeit, indem die Vorabfüllzeit um das Achtfache verkürzt wird und es dem LLaVA-Next 13B-Modell ermöglicht wird, schneller zu inferieren als das LLaVA-Next 7B-Modell bei gleichzeitig besseren Ergebnissen. Darüber hinaus analysieren wir die Ursachen dieser Redundanz und ermutigen die Gemeinschaft, sich darauf zu konzentrieren, bessere visuelle Merkmale zu extrahieren, anstatt einfach nur die Tokenlänge zu erhöhen. Unser Code ist unter https://github.com/dvlab-research/VisionZip verfügbar.