PAVE: Патчинг и адаптация видеомоделей большого языка
PAVE: Patching and Adapting Video Large Language Models
March 25, 2025
Авторы: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI
Аннотация
Предварительно обученные крупные языковые модели для видео (Video LLMs) демонстрируют впечатляющие способности к рассуждению, однако адаптация этих моделей к новым задачам, связанным с дополнительными модальностями или типами данных (например, аудио или 3D-информацией), остается сложной задачей. В данной статье мы представляем PAVE — гибкую платформу для адаптации предварительно обученных Video LLMs к задачам с использованием дополнительных сигналов, таких как аудио, 3D-данные или многоканальные видео. PAVE вводит легковесные адаптеры, называемые "патчами", которые добавляют небольшое количество параметров и операций к базовой модели, не изменяя её архитектуру или предварительно обученные веса. Таким образом, PAVE эффективно адаптирует предварительно обученную модель для поддержки разнообразных задач, включая аудиовизуальное ответы на вопросы, 3D-рассуждения, распознавание многоканальных видео и понимание видео с высокой частотой кадров. В этих задачах PAVE значительно улучшает производительность базовой модели, превосходя современные специализированные модели при минимальных затратах — около 0,1% дополнительных FLOPs и параметров. Кроме того, PAVE поддерживает многозадачное обучение и хорошо обобщается на различные Video LLMs. Наш код доступен по адресу https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable
reasoning capabilities, yet adapting these models to new tasks involving
additional modalities or data types (e.g., audio or 3D information) remains
challenging. In this paper, we present PAVE, a flexible framework for adapting
pre-trained Video LLMs to downstream tasks with side-channel signals, such as
audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters,
referred to as "patches," which add a small number of parameters and operations
to a base model without modifying its architecture or pre-trained weights. In
doing so, PAVE can effectively adapt the pre-trained base model to support
diverse downstream tasks, including audio-visual question answering, 3D
reasoning, multi-view video recognition, and high frame rate video
understanding. Across these tasks, PAVE significantly enhances the performance
of the base model, surpassing state-of-the-art task-specific models while
incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE
supports multi-task learning and generalizes well across different Video LLMs.
Our code is available at https://github.com/dragonlzm/PAVE.Summary
AI-Generated Summary