ChatPaper.aiChatPaper

PAVE : Correction et Adaptation des Modèles de Langage à Grande Échelle pour la Vidéo

PAVE: Patching and Adapting Video Large Language Models

March 25, 2025
Auteurs: Zhuoming Liu, Yiquan Li, Khoi Duc Nguyen, Yiwu Zhong, Yin Li
cs.AI

Résumé

Les grands modèles de langage pré-entraînés pour la vidéo (Video LLMs) démontrent des capacités de raisonnement remarquables, mais leur adaptation à de nouvelles tâches impliquant des modalités ou des types de données supplémentaires (par exemple, l'audio ou les informations 3D) reste un défi. Dans cet article, nous présentons PAVE, un cadre flexible pour adapter les Video LLMs pré-entraînés à des tâches en aval avec des signaux annexes, tels que l'audio, les indices 3D ou les vidéos multi-vues. PAVE introduit des adaptateurs légers, appelés "patches", qui ajoutent un petit nombre de paramètres et d'opérations à un modèle de base sans modifier son architecture ou ses poids pré-entraînés. Ainsi, PAVE peut adapter efficacement le modèle de base pré-entraîné pour prendre en charge diverses tâches en aval, notamment la réponse à des questions audio-visuelles, le raisonnement 3D, la reconnaissance de vidéos multi-vues et la compréhension de vidéos à haute fréquence d'images. Sur ces tâches, PAVE améliore significativement les performances du modèle de base, surpassant les modèles spécifiques à la tâche de pointe tout en engendrant un coût minime d'environ 0,1 % de FLOPs et de paramètres supplémentaires. De plus, PAVE prend en charge l'apprentissage multi-tâches et généralise bien à travers différents Video LLMs. Notre code est disponible à l'adresse https://github.com/dragonlzm/PAVE.
English
Pre-trained video large language models (Video LLMs) exhibit remarkable reasoning capabilities, yet adapting these models to new tasks involving additional modalities or data types (e.g., audio or 3D information) remains challenging. In this paper, we present PAVE, a flexible framework for adapting pre-trained Video LLMs to downstream tasks with side-channel signals, such as audio, 3D cues, or multi-view videos. PAVE introduces lightweight adapters, referred to as "patches," which add a small number of parameters and operations to a base model without modifying its architecture or pre-trained weights. In doing so, PAVE can effectively adapt the pre-trained base model to support diverse downstream tasks, including audio-visual question answering, 3D reasoning, multi-view video recognition, and high frame rate video understanding. Across these tasks, PAVE significantly enhances the performance of the base model, surpassing state-of-the-art task-specific models while incurring a minor cost of ~0.1% additional FLOPs and parameters. Further, PAVE supports multi-task learning and generalizes well across different Video LLMs. Our code is available at https://github.com/dragonlzm/PAVE.

Summary

AI-Generated Summary

PDF42April 1, 2025