Video2Roleplay : Un ensemble de données et un cadre multimodaux pour des agents de jeu de rôle guidés par vidéo

papers.abstract

Les agents de jeu de rôle (RPAs) ont suscité un intérêt croissant pour leur capacité à simuler des personnages immersifs et interactifs. Cependant, les approches existantes se concentrent principalement sur des profils de rôle statiques, négligeant les capacités perceptives dynamiques inhérentes aux humains. Pour combler cette lacune, nous introduisons le concept de profils de rôle dynamiques en intégrant la modalité vidéo dans les RPAs. Pour soutenir cette initiative, nous construisons Role-playing-Video60k, un ensemble de données à grande échelle et de haute qualité comprenant 60 000 vidéos et 700 000 dialogues correspondants. Sur la base de cet ensemble de données, nous développons un cadre RPA complet qui combine un échantillonnage temporel adaptatif avec des représentations de profils de rôle à la fois dynamiques et statiques. Plus précisément, le profil dynamique est créé en échantillonnant de manière adaptative les images vidéo et en les fournissant au LLM dans l'ordre temporel, tandis que le profil statique se compose (1) des dialogues des personnages issus des vidéos d'entraînement lors du réglage fin, et (2) d'un contexte résumé de la vidéo d'entrée lors de l'inférence. Cette intégration conjointe permet aux RPAs de générer des réponses plus pertinentes. De plus, nous proposons une méthode d'évaluation robuste couvrant huit métriques. Les résultats expérimentaux démontrent l'efficacité de notre cadre, soulignant l'importance des profils de rôle dynamiques dans le développement des RPAs.

English

Role-playing agents (RPAs) have attracted growing interest for their ability to simulate immersive and interactive characters. However, existing approaches primarily focus on static role profiles, overlooking the dynamic perceptual abilities inherent to humans. To bridge this gap, we introduce the concept of dynamic role profiles by incorporating video modality into RPAs. To support this, we construct Role-playing-Video60k, a large-scale, high-quality dataset comprising 60k videos and 700k corresponding dialogues. Based on this dataset, we develop a comprehensive RPA framework that combines adaptive temporal sampling with both dynamic and static role profile representations. Specifically, the dynamic profile is created by adaptively sampling video frames and feeding them to the LLM in temporal order, while the static profile consists of (1) character dialogues from training videos during fine-tuning, and (2) a summary context from the input video during inference. This joint integration enables RPAs to generate greater responses. Furthermore, we propose a robust evaluation method covering eight metrics. Experimental results demonstrate the effectiveness of our framework, highlighting the importance of dynamic role profiles in developing RPAs.

Video2Roleplay : Un ensemble de données et un cadre multimodaux pour des agents de jeu de rôle guidés par vidéo

Video2Roleplay: A Multimodal Dataset and Framework for Video-Guided Role-playing Agents

papers.abstract

Support