ChatPaper.aiChatPaper

PAVE: Aplicação de Patches e Adaptação de Modelos de Linguagem de Grande Escala para Vídeo

PAVE: Patching and Adapting Video Large Language Models

March 25, 2025
Autores: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI

Resumo

Modelos de linguagem grandes pré-treinados para vídeo (Video LLMs) exibem capacidades de raciocínio notáveis, mas a adaptação desses modelos para novas tarefas que envolvem modalidades ou tipos de dados adicionais (por exemplo, áudio ou informações 3D) continua sendo um desafio. Neste artigo, apresentamos o PAVE, uma estrutura flexível para adaptar Video LLMs pré-treinados a tarefas subsequentes com sinais de canal lateral, como áudio, pistas 3D ou vídeos multiview. O PAVE introduz adaptadores leves, chamados de "patches", que adicionam um pequeno número de parâmetros e operações a um modelo base sem modificar sua arquitetura ou pesos pré-treinados. Dessa forma, o PAVE pode adaptar efetivamente o modelo base pré-treinado para suportar diversas tarefas subsequentes, incluindo questionamento áudio-visual, raciocínio 3D, reconhecimento de vídeo multiview e compreensão de vídeo de alta taxa de quadros. Nessas tarefas, o PAVE melhora significativamente o desempenho do modelo base, superando modelos específicos de última geração enquanto incorre em um custo mínimo de ~0,1% de FLOPs e parâmetros adicionais. Além disso, o PAVE suporta aprendizado multitarefa e generaliza bem em diferentes Video LLMs. Nosso código está disponível em https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as "patches," which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

Summary

AI-Generated Summary

PDF42April 1, 2025