PVChat: Gepersonaliseerde Videochat met One-Shot Learning
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Auteurs: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Samenvatting
Video large language models (ViLLMs) blinken uit in algemeen videobegrip,
zoals het herkennen van activiteiten zoals praten en eten, maar hebben moeite met
identiteitsbewust begrip, zoals "Wilson ondergaat chemotherapie" of
"Tom bespreekt iets met Sarah", wat hun toepasbaarheid in slimme
gezondheidszorg en slimme thuissituaties beperkt. Om deze beperking aan te pakken, stellen wij
een one-shot learning framework voor, genaamd PVChat, de eerste gepersonaliseerde ViLLM die
subjectbewuste vraag-antwoord (QA) mogelijk maakt op basis van een enkele video per subject. Onze
aanpak optimaliseert een Mixture-of-Heads (MoH) verbeterde ViLLM op een synthetisch
aangevulde video-QA dataset, gebruikmakend van een progressieve beeld-naar-video leerstrategie.
Specifiek introduceren wij een geautomatiseerde augmentatiepijplijn die
identiteitsbehoudende positieve samples synthetiseert en moeilijke negatieven ophaalt
uit bestaande videocorpora, waardoor een diverse trainingsdataset wordt gegenereerd met vier QA-
typen: bestaan, uiterlijk, actie en locatievragen. Om subjectspecifiek leren te verbeteren, stellen wij
een ReLU Routing MoH aandachtmechanisme voor, samen met twee nieuwe doelstellingen: (1) Smooth Proximity Regularization voor
progressief leren door exponentiële afstandsschaal en (2) Head
Activation Enhancement voor gebalanceerde aandachtroutering. Ten slotte hanteren wij een
tweestaps trainingsstrategie, waarbij wordt overgegaan van beeldvoorbereiding naar video
fine-tuning, waardoor een geleidelijk leerproces van statische attributen naar
dynamische representaties mogelijk wordt. Wij evalueren PVChat op diverse datasets die
medische scenario's, tv-series, anime en real-world beelden omvatten, en tonen zijn
superioriteit aan in gepersonaliseerd kenmerkbegrip na het leren van een enkele video,
vergeleken met state-of-the-art ViLLMs.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.Summary
AI-Generated Summary