PVChat: Персонализированный видеозвонок с обучением на одном примере
PVChat: Personalized Video Chat with One-Shot Learning
March 21, 2025
Авторы: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI
Аннотация
Видео-ориентированные большие языковые модели (ViLLMs) превосходно справляются с общим пониманием видео, например, распознаванием действий, таких как разговор или прием пищи, но испытывают трудности с идентификацией субъектов, например, в таких случаях, как "Уилсон проходит химиотерапию" или "Том обсуждает что-то с Сарой", что ограничивает их применимость в сферах умного здравоохранения и умного дома. Чтобы устранить это ограничение, мы предлагаем фреймворк PVChat, основанный на обучении с одного примера, — первую персонализированную ViLLM, которая позволяет отвечать на вопросы, учитывающие субъекта, на основе одного видео для каждого субъекта. Наш подход оптимизирует ViLLM, усиленную механизмом Mixture-of-Heads (MoH), на синтетически расширенном наборе данных "видео-вопросы-ответы", используя стратегию прогрессивного обучения от изображений к видео. В частности, мы представляем автоматизированный конвейер аугментации, который синтезирует позитивные образцы с сохранением идентичности и извлекает сложные негативные примеры из существующих видеокорпусов, создавая разнообразный набор данных для обучения с четырьмя типами вопросов: о существовании, внешности, действиях и местоположении. Для улучшения обучения, ориентированного на конкретного субъекта, мы предлагаем механизм внимания ReLU Routing MoH, а также две новые цели: (1) Smooth Proximity Regularization для прогрессивного обучения через экспоненциальное масштабирование расстояния и (2) Head Activation Enhancement для сбалансированного распределения внимания. Наконец, мы применяем двухэтапную стратегию обучения, переходя от предварительного обучения на изображениях к тонкой настройке на видео, что позволяет постепенно переходить от статических атрибутов к динамическим представлениям. Мы оцениваем PVChat на различных наборах данных, охватывающих медицинские сценарии, телесериалы, аниме и реальные видеозаписи, демонстрируя её превосходство в понимании персонализированных характеристик после обучения на одном видео по сравнению с современными ViLLMs.
English
Video large language models (ViLLMs) excel in general video understanding,
e.g., recognizing activities like talking and eating, but struggle with
identity-aware comprehension, such as "Wilson is receiving chemotherapy" or
"Tom is discussing with Sarah", limiting their applicability in smart
healthcare and smart home environments. To address this limitation, we propose
a one-shot learning framework PVChat, the first personalized ViLLM that enables
subject-aware question answering (QA) from a single video for each subject. Our
approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically
augmented video-QA dataset, leveraging a progressive image-to-video learning
strategy. Specifically, we introduce an automated augmentation pipeline that
synthesizes identity-preserving positive samples and retrieves hard negatives
from existing video corpora, generating a diverse training dataset with four QA
types: existence, appearance, action, and location inquiries. To enhance
subject-specific learning, we propose a ReLU Routing MoH attention mechanism,
alongside two novel objectives: (1) Smooth Proximity Regularization for
progressive learning through exponential distance scaling and (2) Head
Activation Enhancement for balanced attention routing. Finally, we adopt a
two-stage training strategy, transitioning from image pre-training to video
fine-tuning, enabling a gradual learning process from static attributes to
dynamic representations. We evaluate PVChat on diverse datasets covering
medical scenarios, TV series, anime, and real-world footage, demonstrating its
superiority in personalized feature understanding after learning from a single
video, compared to state-of-the-art ViLLMs.Summary
AI-Generated Summary