ChatPaper.aiChatPaper

Video2Roleplay: Мультимодальный набор данных и фреймворк для создания агентов, играющих роли на основе видео

Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

September 17, 2025
Авторы: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
cs.AI

Аннотация

Ролевые агенты (RPAs) привлекают растущий интерес благодаря своей способности моделировать иммерсивных и интерактивных персонажей. Однако существующие подходы в основном сосредоточены на статических профилях ролей, игнорируя динамические перцептивные способности, присущие людям. Чтобы устранить этот пробел, мы вводим концепцию динамических профилей ролей, интегрируя видеомодальность в RPAs. Для поддержки этого мы создали Role-playing-Video60k — масштабный, высококачественный набор данных, включающий 60 тысяч видео и 700 тысяч соответствующих диалогов. На основе этого набора данных мы разработали комплексную структуру RPA, которая сочетает адаптивную временную выборку с представлениями как динамических, так и статических профилей ролей. В частности, динамический профиль создается путем адаптивной выборки кадров видео и их последовательной передачи в LLM, тогда как статический профиль состоит из (1) диалогов персонажей из обучающих видео в процессе тонкой настройки и (2) контекстного резюме входного видео во время вывода. Такая совместная интеграция позволяет RPAs генерировать более качественные ответы. Кроме того, мы предлагаем надежный метод оценки, охватывающий восемь метрик. Результаты экспериментов демонстрируют эффективность нашей структуры, подчеркивая важность динамических профилей ролей в разработке RPAs.
English
Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corresponding dialogues. Based on this dataset, we develop a comprehensive RPA framework that combines adaptive temporal sampling with both dynamic and static role profile representations. Specifically, the dynamic profile is created by adaptively sampling video frames and feeding them to the LLM in temporal order, while the static profile consists of (1) character dialogues from training videos during fine-tuning, and (2) a summary context from the input video during inference. This joint integration enables RPAs to generate greater responses. Furthermore, we propose a robust evaluation method covering eight metrics. Experimental results demonstrate the effectiveness of our framework, highlighting the importance of dynamic role profiles in developing RPAs.
PDF22September 22, 2025