PVChat: Chat Video Personalizzato con Apprendimento One-Shot
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Autori: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Abstract
I modelli linguistici di grandi dimensioni per video (ViLLMs) eccellono nella comprensione generale dei video, ad esempio nel riconoscere attività come parlare e mangiare, ma hanno difficoltà nella comprensione basata sull'identità, come "Wilson sta ricevendo la chemioterapia" o "Tom sta discutendo con Sarah", limitando la loro applicabilità in contesti di sanità intelligente e ambienti domestici intelligenti. Per affrontare questa limitazione, proponiamo un framework di apprendimento one-shot chiamato PVChat, il primo ViLLM personalizzato che consente risposte a domande (QA) basate sul soggetto a partire da un singolo video per ciascun soggetto. Il nostro approccio ottimizza un ViLLM potenziato da una Mixture-of-Heads (MoH) su un dataset video-QA sinteticamente aumentato, sfruttando una strategia di apprendimento progressivo da immagine a video. Nello specifico, introduciamo una pipeline di aumento automatico che sintetizza campioni positivi che preservano l'identità e recupera campioni negativi difficili da corpora video esistenti, generando un dataset di addestramento diversificato con quattro tipi di QA: domande su esistenza, aspetto, azione e posizione. Per migliorare l'apprendimento specifico del soggetto, proponiamo un meccanismo di attenzione MoH con ReLU Routing, insieme a due nuovi obiettivi: (1) la Regolarizzazione di Prossimità Liscia per un apprendimento progressivo attraverso il ridimensionamento esponenziale della distanza e (2) il Potenziamento dell'Attivazione delle Teste per un routing bilanciato dell'attenzione. Infine, adottiamo una strategia di addestramento in due fasi, passando dalla pre-addestramento su immagini al fine-tuning su video, consentendo un processo di apprendimento graduale dagli attributi statici alle rappresentazioni dinamiche. Valutiamo PVChat su diversi dataset che coprono scenari medici, serie TV, anime e riprese del mondo reale, dimostrando la sua superiorità nella comprensione delle caratteristiche personalizzate dopo l'apprendimento da un singolo video, rispetto ai ViLLMs all'avanguardia.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.