VoCo-LLaMA: Rumo à Compressão de Visão com Modelos de Linguagem de Grande Escala
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Autores: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Resumo
Os Modelos de Visão-Linguagem (VLMs) têm alcançado sucesso notável em várias tarefas multimodais, mas frequentemente enfrentam limitações devido à janela de contexto restrita e ao alto custo computacional de processar entradas de imagens de alta resolução e vídeos. A compressão visual pode aliviar esse problema ao reduzir a quantidade de tokens visuais. Abordagens anteriores comprimem tokens visuais com módulos externos e forçam os LLMs (Large Language Models) a entender os tokens comprimidos, resultando em perda de informação visual. No entanto, o paradigma de compreensão de tokens visuais pelos LLMs não é totalmente utilizado no processo de aprendizado de compressão. Propomos o VoCo-LLaMA, a primeira abordagem para comprimir tokens visuais usando LLMs. Ao introduzir tokens de Compressão Visual durante a fase de ajuste fino de instruções visuais e aproveitar a destilação de atenção, nosso método destila como os LLMs compreendem tokens visuais em seu processamento de tokens VoCo. O VoCo-LLaMA facilita a compressão visual eficaz e melhora a eficiência computacional durante a etapa de inferência. Especificamente, nosso método alcança perda mínima de desempenho com uma taxa de compressão de 576 vezes, resultando em até 94,8% menos FLOPs e 69,6% de aceleração no tempo de inferência. Além disso, por meio do treinamento contínuo usando sequências de tokens comprimidos de séries temporais de quadros de vídeo, o VoCo-LLaMA demonstra a capacidade de entender correlações temporais, superando métodos anteriores em benchmarks populares de questionamento e resposta de vídeo. Nossa abordagem apresenta uma maneira promissora de desbloquear todo o potencial da janela contextual dos VLMs, permitindo aplicações multimodais mais escaláveis. A página do projeto, juntamente com o código associado, pode ser acessada via https://yxxxb.github.io/VoCo-LLaMA-page/{este link}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.