ChatPaper.aiChatPaper

Video2Roleplay: Un Conjunto de Datos y Marco de Trabajo Multimodal para Agentes de Roleplay Guiados por Video

Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

September 17, 2025
Autores: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
cs.AI

Resumen

Los agentes de rol (RPAs, por sus siglas en inglés) han atraído un interés creciente por su capacidad para simular personajes inmersivos e interactivos. Sin embargo, los enfoques existentes se centran principalmente en perfiles de rol estáticos, pasando por alto las habilidades perceptivas dinámicas inherentes a los seres humanos. Para cerrar esta brecha, introducimos el concepto de perfiles de rol dinámicos mediante la incorporación de la modalidad de video en los RPAs. Para respaldar esto, construimos Role-playing-Video60k, un conjunto de datos a gran escala y de alta calidad que comprende 60k videos y 700k diálogos correspondientes. Basándonos en este conjunto de datos, desarrollamos un marco integral para RPAs que combina el muestreo temporal adaptativo con representaciones tanto dinámicas como estáticas de los perfiles de rol. Específicamente, el perfil dinámico se crea muestreando de manera adaptativa los fotogramas del video y alimentándolos al modelo de lenguaje grande (LLM) en orden temporal, mientras que el perfil estático consiste en (1) diálogos de personajes extraídos de los videos de entrenamiento durante el ajuste fino, y (2) un contexto resumido del video de entrada durante la inferencia. Esta integración conjunta permite a los RPAs generar respuestas más ricas. Además, proponemos un método de evaluación robusto que cubre ocho métricas. Los resultados experimentales demuestran la efectividad de nuestro marco, destacando la importancia de los perfiles de rol dinámicos en el desarrollo de RPAs.
English
Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corresponding dialogues. Based on this dataset, we develop a comprehensive RPA framework that combines adaptive temporal sampling with both dynamic and static role profile representations. Specifically, the dynamic profile is created by adaptively sampling video frames and feeding them to the LLM in temporal order, while the static profile consists of (1) character dialogues from training videos during fine-tuning, and (2) a summary context from the input video during inference. This joint integration enables RPAs to generate greater responses. Furthermore, we propose a robust evaluation method covering eight metrics. Experimental results demonstrate the effectiveness of our framework, highlighting the importance of dynamic role profiles in developing RPAs.
PDF22September 22, 2025