Video2Roleplay : Un ensemble de données et un cadre multimodaux pour des agents de jeu de rôle guidés par vidéo
Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents
September 17, 2025
papers.authors: Xueqiao Zhang, Chao Zhang, Jingtao Xu, Yifan Zhu, Xin Shi, Yi Yang, Yawei Luo
cs.AI
papers.abstract
Les agents de jeu de rôle (RPAs) ont suscité un intérêt croissant pour leur capacité à simuler des personnages immersifs et interactifs. Cependant, les approches existantes se concentrent principalement sur des profils de rôle statiques, négligeant les capacités perceptives dynamiques inhérentes aux humains. Pour combler cette lacune, nous introduisons le concept de profils de rôle dynamiques en intégrant la modalité vidéo dans les RPAs. Pour soutenir cette initiative, nous construisons Role-playing-Video60k, un ensemble de données à grande échelle et de haute qualité comprenant 60 000 vidéos et 700 000 dialogues correspondants. Sur la base de cet ensemble de données, nous développons un cadre RPA complet qui combine un échantillonnage temporel adaptatif avec des représentations de profils de rôle à la fois dynamiques et statiques. Plus précisément, le profil dynamique est créé en échantillonnant de manière adaptative les images vidéo et en les fournissant au LLM dans l'ordre temporel, tandis que le profil statique se compose (1) des dialogues des personnages issus des vidéos d'entraînement lors du réglage fin, et (2) d'un contexte résumé de la vidéo d'entrée lors de l'inférence. Cette intégration conjointe permet aux RPAs de générer des réponses plus pertinentes. De plus, nous proposons une méthode d'évaluation robuste couvrant huit métriques. Les résultats expérimentaux démontrent l'efficacité de notre cadre, soulignant l'importance des profils de rôle dynamiques dans le développement des RPAs.
English
Role-playing agents (RPAs) have attracted growing interest for their ability
to simulate immersive and interactive characters. However, existing approaches
primarily focus on static role profiles, overlooking the dynamic perceptual
abilities inherent to humans. To bridge this gap, we introduce the concept of
dynamic role profiles by incorporating video modality into RPAs. To support
this, we construct Role-playing-Video60k, a large-scale, high-quality dataset
comprising 60k videos and 700k corresponding dialogues. Based on this dataset,
we develop a comprehensive RPA framework that combines adaptive temporal
sampling with both dynamic and static role profile representations.
Specifically, the dynamic profile is created by adaptively sampling video
frames and feeding them to the LLM in temporal order, while the static profile
consists of (1) character dialogues from training videos during fine-tuning,
and (2) a summary context from the input video during inference. This joint
integration enables RPAs to generate greater responses. Furthermore, we propose
a robust evaluation method covering eight metrics. Experimental results
demonstrate the effectiveness of our framework, highlighting the importance of
dynamic role profiles in developing RPAs.