ChatPaper.aiChatPaper

PVChat: Gepersonaliseerde Videochat met One-Shot Learning

PVChat: Personalized Video Chat with One-Shot Learning

March 21, 2025
Auteurs: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI

Samenvatting

Video large language models (ViLLMs) blinken uit in algemeen videobegrip, zoals het herkennen van activiteiten zoals praten en eten, maar hebben moeite met identiteitsbewust begrip, zoals "Wilson ondergaat chemotherapie" of "Tom bespreekt iets met Sarah", wat hun toepasbaarheid in slimme gezondheidszorg en slimme thuissituaties beperkt. Om deze beperking aan te pakken, stellen wij een one-shot learning framework voor, genaamd PVChat, de eerste gepersonaliseerde ViLLM die subjectbewuste vraag-antwoord (QA) mogelijk maakt op basis van een enkele video per subject. Onze aanpak optimaliseert een Mixture-of-Heads (MoH) verbeterde ViLLM op een synthetisch aangevulde video-QA dataset, gebruikmakend van een progressieve beeld-naar-video leerstrategie. Specifiek introduceren wij een geautomatiseerde augmentatiepijplijn die identiteitsbehoudende positieve samples synthetiseert en moeilijke negatieven ophaalt uit bestaande videocorpora, waardoor een diverse trainingsdataset wordt gegenereerd met vier QA- typen: bestaan, uiterlijk, actie en locatievragen. Om subjectspecifiek leren te verbeteren, stellen wij een ReLU Routing MoH aandachtmechanisme voor, samen met twee nieuwe doelstellingen: (1) Smooth Proximity Regularization voor progressief leren door exponentiële afstandsschaal en (2) Head Activation Enhancement voor gebalanceerde aandachtroutering. Ten slotte hanteren wij een tweestaps trainingsstrategie, waarbij wordt overgegaan van beeldvoorbereiding naar video fine-tuning, waardoor een geleidelijk leerproces van statische attributen naar dynamische representaties mogelijk wordt. Wij evalueren PVChat op diverse datasets die medische scenario's, tv-series, anime en real-world beelden omvatten, en tonen zijn superioriteit aan in gepersonaliseerd kenmerkbegrip na het leren van een enkele video, vergeleken met state-of-the-art ViLLMs.
English
Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

Summary

AI-Generated Summary

PDF72March 24, 2025