VoCo-LLaMA: Verso la compressione visiva con modelli linguistici di grandi dimensioni
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Autori: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Abstract
I modelli visione-linguaggio (VLMs) hanno ottenuto un notevole successo in vari compiti multimodali, ma sono spesso limitati dalla finestra contestuale ridotta e dall'elevato costo computazionale richiesto per elaborare input di immagini ad alta risoluzione e video. La compressione visiva può alleviare questo problema riducendo il numero di token visivi. Approcci precedenti comprimono i token visivi con moduli esterni e costringono i LLM a comprendere quelli compressi, portando a una perdita di informazioni visive. Tuttavia, il paradigma di comprensione dei token visivi da parte dei LLM non è pienamente sfruttato nel processo di apprendimento della compressione. Proponiamo VoCo-LLaMA, il primo approccio a comprimere i token visivi utilizzando i LLM. Introducendo token di compressione visiva durante la fase di ottimizzazione delle istruzioni visive e sfruttando la distillazione dell'attenzione, il nostro metodo distilla il modo in cui i LLM comprendono i token visivi nel loro trattamento dei token VoCo. VoCo-LLaMA facilita una compressione visiva efficace e migliora l'efficienza computazionale durante la fase di inferenza. In particolare, il nostro metodo ottiene una perdita di prestazioni minima con un rapporto di compressione di 576 volte, risultando in una riduzione fino al 94,8% delle FLOP e un'accelerazione del 69,6% nel tempo di inferenza. Inoltre, attraverso un addestramento continuo utilizzando sequenze di token compressi in serie temporali di fotogrammi video, VoCo-LLaMA dimostra la capacità di comprendere le correlazioni temporali, superando i metodi precedenti su benchmark popolari di risposta a domande video. Il nostro approccio presenta una promettente via per sbloccare il pieno potenziale della finestra contestuale dei VLMs, consentendo applicazioni multimodali più scalabili. La pagina del progetto, insieme al codice associato, è accessibile tramite https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.