VoCo-LLaMA: К сжатию видео с помощью больших языковых моделей
VoCo-LLaMA: Towards Vision Compression with Large Language Models
June 18, 2024
Авторы: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang
cs.AI
Аннотация
Модели видео-языка (VLM) достигли значительного успеха в различных мультимодальных задачах, но часто ограничены ограниченным контекстным окном и высокой вычислительной стоимостью обработки изображений высокого разрешения и видео. Визионное сжатие может уменьшить эту проблему путем сокращения количества визионных токенов. Предыдущие подходы сжимали визионные токены с помощью внешних модулей и заставляли LLM понимать сжатые, что приводило к потере визуальной информации. Однако парадигма понимания визионных токенов LLM не полностью используется в процессе обучения сжатию. Мы предлагаем VoCo-LLaMA, первый подход к сжатию визионных токенов с использованием LLM. Вводя визионные токены сжатия во время настройки инструкций видения и используя дистилляцию внимания, наш метод учитывает, как LLM понимает визионные токены в их обработке токенов VoCo. VoCo-LLaMA облегчает эффективное визионное сжатие и повышает вычислительную эффективность на стадии вывода. Конкретно, наш метод достигает минимальной потери производительности при коэффициенте сжатия в 576 раз, что приводит к уменьшению числа операций с плавающей запятой на до 94,8% и ускорению времени вывода на 69,6%. Более того, благодаря непрерывному обучению с использованием последовательностей сжатых токенов временных рядов видеокадров, VoCo-LLaMA демонстрирует способность понимать временные корреляции, превосходя предыдущие методы на популярных бенчмарках вопросов и ответов на видео. Наш подход представляет собой многообещающий способ разблокировать полный потенциал контекстного окна VLM, обеспечивая более масштабные мультимодальные приложения. Страницу проекта вместе с соответствующим кодом можно найти по адресу https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.
English
Vision-Language Models (VLMs) have achieved remarkable success in various
multi-modal tasks, but they are often bottlenecked by the limited context
window and high computational cost of processing high-resolution image inputs
and videos. Vision compression can alleviate this problem by reducing the
vision token count. Previous approaches compress vision tokens with external
modules and force LLMs to understand the compressed ones, leading to visual
information loss. However, the LLMs' understanding paradigm of vision tokens is
not fully utilised in the compression learning process. We propose VoCo-LLaMA,
the first approach to compress vision tokens using LLMs. By introducing Vision
Compression tokens during the vision instruction tuning phase and leveraging
attention distillation, our method distill how LLMs comprehend vision tokens
into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision
compression and improves the computational efficiency during the inference
stage. Specifically, our method achieves minimal performance loss with a
compression ratio of 576times, resulting in up to 94.8% fewer FLOPs and
69.6% acceleration in inference time. Furthermore, through continuous
training using time-series compressed token sequences of video frames,
VoCo-LLaMA demonstrates the ability to understand temporal correlations,
outperforming previous methods on popular video question-answering benchmarks.
Our approach presents a promising way to unlock the full potential of VLMs'
contextual window, enabling more scalable multi-modal applications. The project
page, along with the associated code, can be accessed via
https://yxxxb.github.io/VoCo-LLaMA-page/{this https URL}.Summary
AI-Generated Summary