Video2Roleplay: 비디오 기반 역할 수행 에이전트를 위한 멀티모달 데이터셋 및 프레임워크
Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents
September 17, 2025
저자: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
cs.AI
초록
역할 수행 에이전트(RPAs)는 몰입적이고 상호작용적인 캐릭터를 시뮬레이션할 수 있는 능력으로 인해 점점 더 많은 관심을 받고 있습니다. 그러나 기존 접근 방식은 주로 정적인 역할 프로필에 초점을 맞추고 있어 인간에게 내재된 동적인 지각 능력을 간과하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 비디오 모달리티를 RPAs에 통합하여 동적 역할 프로필 개념을 도입합니다. 이를 지원하기 위해, 60,000개의 비디오와 700,000개의 대응하는 대화로 구성된 대규모 고품질 데이터셋인 Role-playing-Video60k를 구축했습니다. 이 데이터셋을 기반으로, 우리는 적응형 시간 샘플링과 동적 및 정적 역할 프로필 표현을 결합한 포괄적인 RPA 프레임워크를 개발합니다. 구체적으로, 동적 프로필은 비디오 프레임을 적응적으로 샘플링하고 이를 시간 순서대로 LLM에 입력하여 생성되며, 정적 프로필은 (1) 미세 조정 중 훈련 비디오의 캐릭터 대화와 (2) 추론 중 입력 비디오의 요약 컨텍스트로 구성됩니다. 이러한 통합은 RPAs가 더 나은 응답을 생성할 수 있도록 합니다. 또한, 우리는 8가지 메트릭을 포함한 강력한 평가 방법을 제안합니다. 실험 결과는 우리 프레임워크의 효과를 입증하며, RPAs 개발에서 동적 역할 프로필의 중요성을 강조합니다.
English
Role-playing agents (RPAs) have attracted growing interest for their ability
to simulate immersive and interactive characters. However, existing approaches
primarily focus on static role profiles, overlooking the dynamic perceptual
abilities inherent to humans. To bridge this gap, we introduce the concept of
dynamic role profiles by incorporating video modality into RPAs. To support
this, we construct Role-playing-Video60k, a large-scale, high-quality dataset
comprising 60k videos and 700k corresponding dialogues. Based on this dataset,
we develop a comprehensive RPA framework that combines adaptive temporal
sampling with both dynamic and static role profile representations.
Specifically, the dynamic profile is created by adaptively sampling video
frames and feeding them to the LLM in temporal order, while the static profile
consists of (1) character dialogues from training videos during fine-tuning,
and (2) a summary context from the input video during inference. This joint
integration enables RPAs to generate greater responses. Furthermore, we propose
a robust evaluation method covering eight metrics. Experimental results
demonstrate the effectiveness of our framework, highlighting the importance of
dynamic role profiles in developing RPAs.