PAVE: Patchen en Aanpassen van Video Large Language Models

Samenvatting

Voorgetrainde video large language models (Video LLMs) vertonen opmerkelijke redeneervaardigheden, maar het aanpassen van deze modellen aan nieuwe taken die aanvullende modaliteiten of gegevenstypen (bijvoorbeeld audio of 3D-informatie) omvatten, blijft een uitdaging. In dit artikel presenteren we PAVE, een flexibel raamwerk voor het aanpassen van voorgetrainde Video LLMs aan downstream-taken met side-channel signalen, zoals audio, 3D-aanwijzingen of multi-view video's. PAVE introduceert lichtgewicht adapters, aangeduid als "patches", die een klein aantal parameters en bewerkingen toevoegen aan een basismodel zonder de architectuur of voorgetrainde gewichten te wijzigen. Hierdoor kan PAVE het voorgetrainde basismodel effectief aanpassen om diverse downstream-taken te ondersteunen, waaronder audio-visuele vraagbeantwoording, 3D-redenering, multi-view videoherkenning en begrip van video's met een hoog frame rate. Over deze taken heen verbetert PAVE de prestaties van het basismodel aanzienlijk, waarbij het state-of-the-art taakspecifieke modellen overtreft tegen een minimale kostenpost van ~0,1% extra FLOPs en parameters. Bovendien ondersteunt PAVE multi-task learning en generaliseert het goed over verschillende Video LLMs. Onze code is beschikbaar op https://github.com/dragonlzm/PAVE.

English

Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as "patches," which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

PAVE: Patchen en Aanpassen van Video Large Language Models

PAVE: Patching and Adapting Video Large Language Models

Samenvatting

Support