ChatPaper.aiChatPaper

PVChat: 원샷 학습을 통한 개인화된 비디오 채팅

PVChat: Personalized Video Chat with One-Shot Learning

March 21, 2025
저자: Yufei Shi, Weilong Yan, Gang Xu, Yumeng Li, Yuchen Li, Zhenxi Li, Fei Richard Yu, Ming Li, Si Yong Yeo
cs.AI

초록

비디오 대형 언어 모델(ViLLMs)은 일반적인 비디오 이해, 예를 들어 말하기와 먹기와 같은 활동 인식에서는 뛰어난 성능을 보이지만, "윌슨이 화학 요법을 받고 있다" 또는 "톰이 사라와 이야기하고 있다"와 같은 정체성 인지 이해에서는 어려움을 겪습니다. 이는 스마트 헬스케어 및 스마트 홈 환경에서의 적용 가능성을 제한합니다. 이러한 한계를 해결하기 위해, 우리는 각 주체에 대해 단일 비디오로부터 주체 인지 질의응답(QA)을 가능하게 하는 최초의 개인화된 ViLLM인 PVChat이라는 원샷 학습 프레임워크를 제안합니다. 우리의 접근 방식은 합성적으로 증강된 비디오-QA 데이터셋에서 Mixture-of-Heads(MoH) 강화 ViLLM을 최적화하며, 점진적인 이미지-투-비디오 학습 전략을 활용합니다. 구체적으로, 우리는 정체성 보존 양성 샘플을 합성하고 기존 비디오 코퍼스에서 어려운 음성 샘플을 검색하는 자동화된 증강 파이프라인을 도입하여, 존재, 외모, 행동, 위치 질문 등 네 가지 QA 유형을 포함한 다양한 학습 데이터셋을 생성합니다. 주체 특정 학습을 강화하기 위해, 우리는 ReLU Routing MoH 주의 메커니즘과 두 가지 새로운 목표를 제안합니다: (1) 지수 거리 스케일링을 통한 점진적 학습을 위한 Smooth Proximity Regularization 및 (2) 균형 잡힌 주의 라우팅을 위한 Head Activation Enhancement. 마지막으로, 우리는 정적 속성에서 동적 표현으로의 점진적 학습 과정을 가능하게 하는 이미지 사전 학습에서 비디오 미세 조정으로의 전환을 포함한 두 단계 학습 전략을 채택합니다. 우리는 PVChat을 의료 시나리오, TV 시리즈, 애니메이션 및 실제 영상을 포함한 다양한 데이터셋에서 평가하며, 단일 비디오 학습 후 개인화된 특징 이해에서 최신 ViLLMs 대비 우수성을 입증합니다.
English
Video large language models (ViLLMs) excel in general video understanding, e.g., recognizing activities like talking and eating, but struggle with identity-aware comprehension, such as "Wilson is receiving chemotherapy" or "Tom is discussing with Sarah", limiting their applicability in smart healthcare and smart home environments. To address this limitation, we propose a one-shot learning framework PVChat, the first personalized ViLLM that enables subject-aware question answering (QA) from a single video for each subject. Our approach optimizes a Mixture-of-Heads (MoH) enhanced ViLLM on a synthetically augmented video-QA dataset, leveraging a progressive image-to-video learning strategy. Specifically, we introduce an automated augmentation pipeline that synthesizes identity-preserving positive samples and retrieves hard negatives from existing video corpora, generating a diverse training dataset with four QA types: existence, appearance, action, and location inquiries. To enhance subject-specific learning, we propose a ReLU Routing MoH attention mechanism, alongside two novel objectives: (1) Smooth Proximity Regularization for progressive learning through exponential distance scaling and (2) Head Activation Enhancement for balanced attention routing. Finally, we adopt a two-stage training strategy, transitioning from image pre-training to video fine-tuning, enabling a gradual learning process from static attributes to dynamic representations. We evaluate PVChat on diverse datasets covering medical scenarios, TV series, anime, and real-world footage, demonstrating its superiority in personalized feature understanding after learning from a single video, compared to state-of-the-art ViLLMs.

Summary

AI-Generated Summary

PDF72March 24, 2025