VisionZip: Più lungo è meglio, ma non necessario nei modelli di linguaggio visivo.VisionZip: Longer is Better but Not Necessary in Vision Language Models
Gli avanzamenti recenti nei modelli visione-linguaggio hanno migliorato le prestazioni aumentando la lunghezza dei token visivi, rendendoli molto più lunghi dei token di testo e aumentando significativamente i costi computazionali. Tuttavia, osserviamo che i token visivi generati dai popolari encoder di visione, come CLIP e SigLIP, contengono una significativa ridondanza. Per affrontare questo problema, introduciamo VisionZip, un metodo semplice ma efficace che seleziona un insieme di token informativi per l'input al modello linguistico, riducendo la ridondanza dei token visivi e migliorando l'efficienza pur mantenendo le prestazioni del modello. Il VisionZip proposto può essere ampiamente applicato a compiti di comprensione di immagini e video ed è particolarmente adatto per dialoghi a più turni in scenari reali, dove i metodi precedenti tendono a non performare bene. I risultati sperimentali mostrano che VisionZip supera il metodo precedente all'avanguardia di almeno il 5% in termini di guadagni di prestazioni in quasi tutte le configurazioni. Inoltre, il nostro metodo migliora significativamente la velocità di inferenza del modello, riducendo il tempo di precaricamento di 8 volte e consentendo al modello LLaVA-Next 13B di inferire più velocemente rispetto al modello LLaVA-Next 7B ottenendo risultati migliori. Inoltre, analizziamo le cause di questa ridondanza e incoraggiamo la comunità a concentrarsi sull'estrazione di migliori caratteristiche visive piuttosto che semplicemente aumentare la lunghezza dei token. Il nostro codice è disponibile su https://github.com/dvlab-research/VisionZip.