PVChat: Персонализированный видеозвонок с обучением на одном примере

Аннотация

Видео-ориентированные большие языковые модели (ViLLMs) превосходно справляются с общим пониманием видео, например, распознаванием действий, таких как разговор или прием пищи, но испытывают трудности с идентификацией субъектов, например, в таких случаях, как "Уилсон проходит химиотерапию" или "Том обсуждает что-то с Сарой", что ограничивает их применимость в сферах умного здравоохранения и умного дома. Чтобы устранить это ограничение, мы предлагаем фреймворк PVChat, основанный на обучении с одного примера, — первую персонализированную ViLLM, которая позволяет отвечать на вопросы, учитывающие субъекта, на основе одного видео для каждого субъекта. Наш подход оптимизирует ViLLM, усиленную механизмом Mixture-of-Heads (MoH), на синтетически расширенном наборе данных "видео-вопросы-ответы", используя стратегию прогрессивного обучения от изображений к видео. В частности, мы представляем автоматизированный конвейер аугментации, который синтезирует позитивные образцы с сохранением идентичности и извлекает сложные негативные примеры из существующих видеокорпусов, создавая разнообразный набор данных для обучения с четырьмя типами вопросов: о существовании, внешности, действиях и местоположении. Для улучшения обучения, ориентированного на конкретного субъекта, мы предлагаем механизм внимания ReLU Routing MoH, а также две новые цели: (1) Smooth Proximity Regularization для прогрессивного обучения через экспоненциальное масштабирование расстояния и (2) Head Activation Enhancement для сбалансированного распределения внимания. Наконец, мы применяем двухэтапную стратегию обучения, переходя от предварительного обучения на изображениях к тонкой настройке на видео, что позволяет постепенно переходить от статических атрибутов к динамическим представлениям. Мы оцениваем PVChat на различных наборах данных, охватывающих медицинские сценарии, телесериалы, аниме и реальные видеозаписи, демонстрируя её превосходство в понимании персонализированных характеристик после обучения на одном видео по сравнению с современными ViLLMs.

English

Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

PVChat: Персонализированный видеозвонок с обучением на одном примере

PVChat: Personalized Video Chat with One-Shot Learning

Аннотация

Support