VoCo-LLaMA: Hacia la compresión visual con modelos de lenguaje grandes
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Autores: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Resumen
Los Modelos de Visión-Lenguaje (VLMs) han logrado un éxito notable en diversas tareas multimodales, pero a menudo se ven limitados por la ventana de contexto reducida y el alto costo computacional de procesar entradas de imágenes de alta resolución y videos. La compresión de visión puede mitigar este problema al reducir el número de tokens visuales. Enfoques anteriores comprimen los tokens visuales con módulos externos y obligan a los LLMs a comprender los tokens comprimidos, lo que resulta en una pérdida de información visual. Sin embargo, el paradigma de comprensión de los tokens visuales por parte de los LLMs no se utiliza plenamente en el proceso de aprendizaje de compresión. Proponemos VoCo-LLaMA, el primer enfoque para comprimir tokens visuales utilizando LLMs. Al introducir tokens de Compresión de Visión durante la fase de ajuste fino de instrucciones visuales y aprovechar la destilación de atención, nuestro método destila cómo los LLMs comprenden los tokens visuales en su procesamiento de tokens VoCo. VoCo-LLaMA facilita una compresión visual efectiva y mejora la eficiencia computacional durante la etapa de inferencia. Específicamente, nuestro método logra una pérdida mínima de rendimiento con una relación de compresión de 576 veces, resultando en hasta un 94.8% menos de FLOPs y una aceleración del 69.6% en el tiempo de inferencia. Además, mediante el entrenamiento continuo utilizando secuencias de tokens comprimidos en series temporales de fotogramas de video, VoCo-LLaMA demuestra la capacidad de comprender correlaciones temporales, superando a métodos anteriores en benchmarks populares de preguntas y respuestas sobre videos. Nuestro enfoque presenta una forma prometedora de desbloquear todo el potencial de la ventana contextual de los VLMs, permitiendo aplicaciones multimodales más escalables. La página del proyecto, junto con el código asociado, puede accederse a través de https://yxxxb.github.io/VoCo-LLaMA-page/{este enlace HTTPS}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.Summary
AI-Generated Summary