ChatPaper.aiChatPaper

PVChat: Chat de video personalizado con aprendizaje de un solo disparo

PVChat: Personalized Video Chat with One-Shot Learning

March 21, 2025
Autores: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI

Resumen

Los modelos de lenguaje de gran escala para video (ViLLMs, por sus siglas en inglés) sobresalen en la comprensión general de videos, por ejemplo, reconociendo actividades como hablar o comer, pero tienen dificultades con la comprensión basada en identidades, como "Wilson está recibiendo quimioterapia" o "Tom está discutiendo con Sarah", lo que limita su aplicabilidad en entornos de salud inteligente y hogares inteligentes. Para abordar esta limitación, proponemos un marco de aprendizaje de un solo disparo llamado PVChat, el primer ViLLM personalizado que permite respuestas a preguntas (QA) conscientes del sujeto a partir de un solo video por individuo. Nuestro enfoque optimiza un ViLLM mejorado con Mezcla de Cabezas (MoH) en un conjunto de datos de video-QA sintéticamente aumentado, aprovechando una estrategia de aprendizaje progresivo de imagen a video. Específicamente, introducimos una canalización de aumento automatizado que sintetiza muestras positivas que preservan la identidad y recupera negativos difíciles de corpus de video existentes, generando un conjunto de datos de entrenamiento diverso con cuatro tipos de QA: existencia, apariencia, acción y ubicación. Para mejorar el aprendizaje específico del sujeto, proponemos un mecanismo de atención MoH con Enrutamiento ReLU, junto con dos objetivos novedosos: (1) Regularización de Proximidad Suave para un aprendizaje progresivo mediante escalado exponencial de distancias y (2) Mejora de Activación de Cabezas para un enrutamiento de atención equilibrado. Finalmente, adoptamos una estrategia de entrenamiento en dos etapas, pasando del preentrenamiento en imágenes al ajuste fino en video, permitiendo un proceso de aprendizaje gradual desde atributos estáticos hasta representaciones dinámicas. Evaluamos PVChat en diversos conjuntos de datos que cubren escenarios médicos, series de televisión, anime y grabaciones del mundo real, demostrando su superioridad en la comprensión de características personalizadas después de aprender a partir de un solo video, en comparación con los ViLLMs más avanzados.
English
Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

Summary

AI-Generated Summary

PDF72March 24, 2025