PVChat : Discussion vidéo personnalisée avec apprentissage en un seul essai
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Auteurs: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Résumé
Les modèles de langage de grande taille pour la vidéo (ViLLMs) excellent dans la compréhension générale des vidéos, par exemple en reconnaissant des activités comme parler ou manger, mais peinent à comprendre les aspects liés à l'identité, tels que "Wilson reçoit une chimiothérapie" ou "Tom discute avec Sarah", limitant ainsi leur applicabilité dans les environnements de santé intelligente et de maison connectée. Pour pallier cette limitation, nous proposons un cadre d'apprentissage en une seule étape, PVChat, le premier ViLLM personnalisé permettant un question-réponse (QA) basé sur le sujet à partir d'une seule vidéo par individu. Notre approche optimise un ViLLM amélioré par un mécanisme de Mixture-of-Heads (MoH) sur un ensemble de données vidéo-QA synthétiquement augmenté, en exploitant une stratégie d'apprentissage progressive de l'image à la vidéo. Plus précisément, nous introduisons un pipeline d'augmentation automatisé qui synthétise des échantillons positifs préservant l'identité et récupère des échantillons négatifs difficiles à partir de corpus vidéo existants, générant ainsi un ensemble de données d'entraînement diversifié avec quatre types de QA : existence, apparence, action et localisation. Pour améliorer l'apprentissage spécifique au sujet, nous proposons un mécanisme d'attention MoH avec routage ReLU, ainsi que deux nouveaux objectifs : (1) une régularisation de proximité lisse pour un apprentissage progressif via un ajustement exponentiel de la distance, et (2) une amélioration de l'activation des têtes pour un routage d'attention équilibré. Enfin, nous adoptons une stratégie d'entraînement en deux étapes, passant d'un pré-entraînement sur images à un affinage sur vidéos, permettant un processus d'apprentissage graduel des attributs statiques aux représentations dynamiques. Nous évaluons PVChat sur divers ensembles de données couvrant des scénarios médicaux, des séries télévisées, des animes et des séquences du monde réel, démontrant sa supériorité dans la compréhension des caractéristiques personnalisées après apprentissage à partir d'une seule vidéo, par rapport aux ViLLMs de pointe.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.Summary
AI-Generated Summary