ChatPaper.aiChatPaper

PVChat:ワンショット学習によるパーソナライズドビデオチャット

PVChat: Personalized Video Chat with One-Shot Learning

March 21, 2025
著者: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI

要旨

ビデオ大規模言語モデル(ViLLMs)は、話すや食べるといった一般的な活動の認識など、ビデオ理解において優れた性能を発揮しますが、「ウィルソンが化学療法を受けている」や「トムがサラと話し合っている」といった、個人を特定した理解には苦戦しており、スマートヘルスケアやスマートホーム環境での適用性が制限されています。この課題を解決するため、我々はワンショット学習フレームワーク「PVChat」を提案します。PVChatは、各個人に対して単一のビデオから個人を認識した質問応答(QA)を可能にする、初のパーソナライズドViLLMです。我々のアプローチでは、Mixture-of-Heads(MoH)を強化したViLLMを、合成的に拡張されたビデオ-QAデータセットで最適化し、プログレッシブな画像からビデオへの学習戦略を活用します。具体的には、個人の同一性を保持したポジティブサンプルを合成し、既存のビデオコーパスからハードネガティブを検索する自動拡張パイプラインを導入し、存在、外見、行動、位置の4種類のQAを含む多様なトレーニングデータセットを生成します。個人固有の学習を強化するため、ReLU Routing MoHアテンションメカニズムを提案し、さらに2つの新しい目的関数を導入します:(1)指数距離スケーリングを通じたプログレッシブ学習のためのスムーズプロキシミティ正則化、(2)バランスの取れたアテンションルーティングのためのヘッドアクティベーション強化。最後に、静的属性から動的表現への段階的な学習プロセスを可能にするため、画像事前学習からビデオ微調整への2段階のトレーニング戦略を採用します。PVChatを、医療シナリオ、テレビシリーズ、アニメ、実世界の映像をカバーする多様なデータセットで評価し、単一のビデオから学習した後の個人化された特徴理解において、最先端のViLLMsを上回る性能を示します。
English
Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

Summary

AI-Generated Summary

PDF72March 24, 2025