PAVE: Patchen und Anpassen von Video-Großsprachmodellen
PAVE: Patching and Adapting Video Large Language Models
March 25, 2025
Autoren: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI
Zusammenfassung
Vortrainierte Video-Large-Language-Modelle (Video LLMs) zeigen bemerkenswerte Fähigkeiten im Bereich des logischen Schließens, doch die Anpassung dieser Modelle auf neue Aufgaben, die zusätzliche Modalitäten oder Datentypen (z. B. Audio oder 3D-Informationen) beinhalten, bleibt eine Herausforderung. In diesem Artikel stellen wir PAVE vor, ein flexibles Framework zur Anpassung vortrainierter Video LLMs auf nachgelagerte Aufgaben mit Nebenkanalsignalen wie Audio, 3D-Hinweisen oder Multi-View-Videos. PAVE führt leichtgewichtige Adapter, sogenannte „Patches“, ein, die eine geringe Anzahl zusätzlicher Parameter und Operationen zum Basismodell hinzufügen, ohne dessen Architektur oder vortrainierte Gewichte zu verändern. Dadurch kann PAVE das vortrainierte Basismodell effektiv anpassen, um diverse nachgelagerte Aufgaben zu unterstützen, darunter audiovisuelle Fragebeantwortung, 3D-Schlussfolgerung, Multi-View-Videoerkennung und das Verständnis von Videos mit hoher Bildrate. In diesen Aufgaben verbessert PAVE die Leistung des Basismodells erheblich und übertrifft dabei state-of-the-art, aufgabenspezifische Modelle, während nur geringfügige zusätzliche Kosten von ~0,1 % an FLOPs und Parametern entstehen. Darüber hinaus unterstützt PAVE Multi-Task-Learning und generalisiert gut über verschiedene Video LLMs hinweg. Unser Code ist unter https://github.com/dragonlzm/PAVE verfügbar.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable
reasoning capabilities, yet adapting these models to new tasks involving
additional modalities or data types (e.g., audio or 3D information) remains
challenging. In this paper, we present PAVE, a flexible framework for adapting
pre-trained Video LLMs to downstream tasks with side-channel signals, such as
audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters,
referred to as "patches," which add a small number of parameters and operations
to a base model without modifying its architecture or pre-trained weights. In
doing so, PAVE can effectively adapt the pre-trained base model to support
diverse downstream tasks, including audio-visual question answering, 3D
reasoning, multi-view video recognition, and high frame rate video
understanding. Across these tasks, PAVE significantly enhances the performance
of the base model, surpassing state-of-the-art task-specific models while
incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE
supports multi-task learning and generalizes well across different Video LLMs.
Our code is available at https://github.com/dragonlzm/PAVE.