VoCo-LLaMA: Verso la compressione visiva con modelli linguistici di grandi dimensioni

Abstract

I modelli visione-linguaggio (VLMs) hanno ottenuto un notevole successo in vari compiti multimodali, ma sono spesso limitati dalla finestra contestuale ridotta e dall'elevato costo computazionale richiesto per elaborare input di immagini ad alta risoluzione e video. La compressione visiva può alleviare questo problema riducendo il numero di token visivi. Approcci precedenti comprimono i token visivi con moduli esterni e costringono i LLM a comprendere quelli compressi, portando a una perdita di informazioni visive. Tuttavia, il paradigma di comprensione dei token visivi da parte dei LLM non è pienamente sfruttato nel processo di apprendimento della compressione. Proponiamo VoCo-LLaMA, il primo approccio a comprimere i token visivi utilizzando i LLM. Introducendo token di compressione visiva durante la fase di ottimizzazione delle istruzioni visive e sfruttando la distillazione dell'attenzione, il nostro metodo distilla il modo in cui i LLM comprendono i token visivi nel loro trattamento dei token VoCo. VoCo-LLaMA facilita una compressione visiva efficace e migliora l'efficienza computazionale durante la fase di inferenza. In particolare, il nostro metodo ottiene una perdita di prestazioni minima con un rapporto di compressione di 576 volte, risultando in una riduzione fino al 94,8% delle FLOP e un'accelerazione del 69,6% nel tempo di inferenza. Inoltre, attraverso un addestramento continuo utilizzando sequenze di token compressi in serie temporali di fotogrammi video, VoCo-LLaMA dimostra la capacità di comprendere le correlazioni temporali, superando i metodi precedenti su benchmark popolari di risposta a domande video. Il nostro approccio presenta una promettente via per sbloccare il pieno potenziale della finestra contestuale dei VLMs, consentendo applicazioni multimodali più scalabili. La pagina del progetto, insieme al codice associato, è accessibile tramite https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.

English

Vision-Language Models (VLMs) have achieved remarkable success in various multi-modal tasks, but they are often bottlenecked by the limited context window and high computational cost of processing high-resolution image inputs and videos. Vision compression can alleviate this problem by reducing the vision token count. Previous approaches compress vision tokens with external modules and force LLMs to understand the compressed ones, leading to visual information loss. However, the LLMs' understanding paradigm of vision tokens is not fully utilised in the compression learning process. We propose VoCo-LLaMA, the first approach to compress vision tokens using LLMs. By introducing Vision Compression tokens during the vision instruction tuning phase and leveraging attention distillation, our method distill how LLMs comprehend vision tokens into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision compression and improves the computational efficiency during the inference stage. Specifically, our method achieves minimal performance loss with a compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and 69.6% acceleration in inference time. Furthermore, through continuous training using time-series compressed token sequences of video frames, VoCo-LLaMA demonstrates the ability to understand temporal correlations, outperforming previous methods on popular video question-answering benchmarks. Our approach presents a promising way to unlock the full potential of VLMs' contextual window, enabling more scalable multi-modal applications. The project page, along with the associated code, can be accessed via https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.

VoCo-LLaMA: Verso la compressione visiva con modelli linguistici di grandi dimensioni

VoCo-LLaMA: Towards Vision Compression with Large Language Models

Abstract

Support