PVChat: Chat de Vídeo Personalizado com Aprendizado de Um Único Exemplo
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Autores: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Resumo
Os modelos de linguagem de grande escala para vídeo (ViLLMs) se destacam na compreensão geral de vídeos, por exemplo, reconhecendo atividades como falar e comer, mas têm dificuldades com a compreensão baseada em identidade, como "Wilson está recebendo quimioterapia" ou "Tom está discutindo com Sarah", limitando sua aplicabilidade em ambientes de saúde inteligente e casa inteligente. Para abordar essa limitação, propomos um framework de aprendizado one-shot chamado PVChat, o primeiro ViLLM personalizado que permite questionamento e resposta (QA) baseado em sujeito a partir de um único vídeo para cada indivíduo. Nossa abordagem otimiza um ViLLM aprimorado com Mixture-of-Heads (MoH) em um conjunto de dados de QA de vídeo sinteticamente aumentado, utilizando uma estratégia de aprendizado progressivo de imagem para vídeo. Especificamente, introduzimos um pipeline de aumento automatizado que sintetiza amostras positivas que preservam a identidade e recupera negativos difíceis de corpora de vídeo existentes, gerando um conjunto de dados de treinamento diversificado com quatro tipos de QA: existência, aparência, ação e localização. Para aprimorar o aprendizado específico do sujeito, propomos um mecanismo de atenção MoH com Roteamento ReLU, juntamente com dois novos objetivos: (1) Regularização de Proximidade Suave para aprendizado progressivo por meio de escalonamento exponencial de distância e (2) Aprimoramento de Ativação de Cabeça para roteamento de atenção equilibrado. Por fim, adotamos uma estratégia de treinamento em duas etapas, transitando do pré-treinamento de imagem para o ajuste fino de vídeo, permitindo um processo de aprendizado gradual de atributos estáticos para representações dinâmicas. Avaliamos o PVChat em diversos conjuntos de dados que abrangem cenários médicos, séries de TV, anime e gravações do mundo real, demonstrando sua superioridade na compreensão de características personalizadas após o aprendizado a partir de um único vídeo, em comparação com os ViLLMs state-of-the-art.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.Summary
AI-Generated Summary