VoCo-LLaMA : Vers la compression visuelle avec les grands modèles de langage
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Auteurs: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Résumé
Les modèles vision-langage (VLMs) ont obtenu des succès remarquables dans diverses tâches multimodales, mais ils sont souvent limités par la fenêtre contextuelle restreinte et le coût computationnel élevé du traitement des images haute résolution et des vidéos. La compression visuelle peut atténuer ce problème en réduisant le nombre de tokens visuels. Les approches précédentes compressent les tokens visuels avec des modules externes et forcent les LLMs (Large Language Models) à comprendre les tokens compressés, ce qui entraîne une perte d'information visuelle. Cependant, le paradigme de compréhension des tokens visuels par les LLMs n'est pas pleinement exploité dans le processus d'apprentissage de la compression. Nous proposons VoCo-LLaMA, la première approche pour compresser les tokens visuels en utilisant les LLMs. En introduisant des tokens de compression visuelle lors de la phase de réglage des instructions visuelles et en exploitant la distillation par attention, notre méthode distille la manière dont les LLMs comprennent les tokens visuels dans leur traitement des tokens VoCo. VoCo-LLaMA facilite une compression visuelle efficace et améliore l'efficacité computationnelle lors de l'inférence. Plus précisément, notre méthode atteint une perte de performance minimale avec un taux de compression de 576 fois, entraînant jusqu'à 94,8 % de FLOPs en moins et une accélération de 69,6 % du temps d'inférence. De plus, grâce à un entraînement continu utilisant des séquences de tokens compressés temporels de trames vidéo, VoCo-LLaMA démontre la capacité à comprendre les corrélations temporelles, surpassant les méthodes précédentes sur des benchmarks populaires de question-réponse vidéo. Notre approche présente une voie prometteuse pour libérer tout le potentiel de la fenêtre contextuelle des VLMs, permettant des applications multimodales plus évolutives. La page du projet, ainsi que le code associé, peuvent être consultés via https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.Summary
AI-Generated Summary