PAVE: Patchen en Aanpassen van Video Large Language Models
PAVE: Patching and Adapting Video Large Language Models
March 25, 2025
Auteurs: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI
Samenvatting
Voorgetrainde video large language models (Video LLMs) vertonen opmerkelijke redeneervaardigheden, maar het aanpassen van deze modellen aan nieuwe taken die aanvullende modaliteiten of gegevenstypen (bijvoorbeeld audio of 3D-informatie) omvatten, blijft een uitdaging. In dit artikel presenteren we PAVE, een flexibel raamwerk voor het aanpassen van voorgetrainde Video LLMs aan downstream-taken met side-channel signalen, zoals audio, 3D-aanwijzingen of multi-view video's. PAVE introduceert lichtgewicht adapters, aangeduid als "patches", die een klein aantal parameters en bewerkingen toevoegen aan een basismodel zonder de architectuur of voorgetrainde gewichten te wijzigen. Hierdoor kan PAVE het voorgetrainde basismodel effectief aanpassen om diverse downstream-taken te ondersteunen, waaronder audio-visuele vraagbeantwoording, 3D-redenering, multi-view videoherkenning en begrip van video's met een hoog frame rate. Over deze taken heen verbetert PAVE de prestaties van het basismodel aanzienlijk, waarbij het state-of-the-art taakspecifieke modellen overtreft tegen een minimale kostenpost van ~0,1% extra FLOPs en parameters. Bovendien ondersteunt PAVE multi-task learning en generaliseert het goed over verschillende Video LLMs. Onze code is beschikbaar op https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable
reasoning capabilities, yet adapting these models to new tasks involving
additional modalities or data types (e.g., audio or 3D information) remains
challenging. In this paper, we present PAVE, a flexible framework for adapting
pre-trained Video LLMs to downstream tasks with side-channel signals, such as
audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters,
referred to as "patches," which add a small number of parameters and operations
to a base model without modifying its architecture or pre-trained weights. In
doing so, PAVE can effectively adapt the pre-trained base model to support
diverse downstream tasks, including audio-visual question answering, 3D
reasoning, multi-view video recognition, and high frame rate video
understanding. Across these tasks, PAVE significantly enhances the performance
of the base model, surpassing state-of-the-art task-specific models while
incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE
supports multi-task learning and generalizes well across different Video LLMs.
Our code is available at https://github.com/dragonlzm/PAVE.Summary
AI-Generated Summary