PVChat: Chat Video Personalizzato con Apprendimento One-Shot

Abstract

I modelli linguistici di grandi dimensioni per video (ViLLMs) eccellono nella comprensione generale dei video, ad esempio nel riconoscere attività come parlare e mangiare, ma hanno difficoltà nella comprensione basata sull'identità, come "Wilson sta ricevendo la chemioterapia" o "Tom sta discutendo con Sarah", limitando la loro applicabilità in contesti di sanità intelligente e ambienti domestici intelligenti. Per affrontare questa limitazione, proponiamo un framework di apprendimento one-shot chiamato PVChat, il primo ViLLM personalizzato che consente risposte a domande (QA) basate sul soggetto a partire da un singolo video per ciascun soggetto. Il nostro approccio ottimizza un ViLLM potenziato da una Mixture-of-Heads (MoH) su un dataset video-QA sinteticamente aumentato, sfruttando una strategia di apprendimento progressivo da immagine a video. Nello specifico, introduciamo una pipeline di aumento automatico che sintetizza campioni positivi che preservano l'identità e recupera campioni negativi difficili da corpora video esistenti, generando un dataset di addestramento diversificato con quattro tipi di QA: domande su esistenza, aspetto, azione e posizione. Per migliorare l'apprendimento specifico del soggetto, proponiamo un meccanismo di attenzione MoH con ReLU Routing, insieme a due nuovi obiettivi: (1) la Regolarizzazione di Prossimità Liscia per un apprendimento progressivo attraverso il ridimensionamento esponenziale della distanza e (2) il Potenziamento dell'Attivazione delle Teste per un routing bilanciato dell'attenzione. Infine, adottiamo una strategia di addestramento in due fasi, passando dalla pre-addestramento su immagini al fine-tuning su video, consentendo un processo di apprendimento graduale dagli attributi statici alle rappresentazioni dinamiche. Valutiamo PVChat su diversi dataset che coprono scenari medici, serie TV, anime e riprese del mondo reale, dimostrando la sua superiorità nella comprensione delle caratteristiche personalizzate dopo l'apprendimento da un singolo video, rispetto ai ViLLMs all'avanguardia.

English

Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

PVChat: Chat Video Personalizzato con Apprendimento One-Shot

PVChat: Personalized Video Chat with One-Shot Learning

Abstract

Support