ChatPaper.aiChatPaper

PAVE: Parcheo y Adaptación de Modelos de Lenguaje de Gran Escala para Vídeo

PAVE: Patching and Adapting Video Large Language Models

March 25, 2025
Autores: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI

Resumen

Los modelos de lenguaje de gran escala preentrenados para video (Video LLMs) exhiben capacidades de razonamiento notables, sin embargo, adaptar estos modelos a nuevas tareas que involucran modalidades o tipos de datos adicionales (por ejemplo, audio o información 3D) sigue siendo un desafío. En este artículo, presentamos PAVE, un marco flexible para adaptar Video LLMs preentrenados a tareas posteriores con señales de canal secundario, como audio, indicaciones 3D o videos de múltiples vistas. PAVE introduce adaptadores ligeros, denominados "parches", que agregan una pequeña cantidad de parámetros y operaciones a un modelo base sin modificar su arquitectura o pesos preentrenados. Al hacerlo, PAVE puede adaptar eficazmente el modelo base preentrenado para admitir diversas tareas posteriores, incluyendo respuestas a preguntas audiovisuales, razonamiento 3D, reconocimiento de videos de múltiples vistas y comprensión de videos de alta tasa de cuadros. En estas tareas, PAVE mejora significativamente el rendimiento del modelo base, superando a los modelos específicos de tarea más avanzados mientras incurre en un costo menor de ~0.1% de FLOPs y parámetros adicionales. Además, PAVE admite el aprendizaje multitarea y se generaliza bien en diferentes Video LLMs. Nuestro código está disponible en https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as "patches," which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

Summary

AI-Generated Summary

PDF42April 1, 2025