Vers un jeu de rôle multimodal personnalisé

Résumé

Les modèles unifiés de compréhension et de génération multimodales permettent des interactions homme-IA plus riches. Pourtant, la personnalisation conjointe du personnage, du style de dialogue et de l'identité visuelle tout en maintenant une cohérence des sorties entre les modalités reste largement inexplorée. Pour combler cette lacune, nous introduisons une nouvelle tâche, le Jeu de Rôle Multimodal Personnalisé (CMRP). Nous construisons l'ensemble de données RoleScape-20, comprenant 20 personnages, avec des données d'entraînement et d'évaluation couvrant la personnalité, les descriptions stylistiques, les indices visuels/expressifs et les interactions texte-image. En nous appuyant sur un modèle unifié, nous concevons UniCharacter, un cadre d'apprentissage en deux étapes comprenant un ajustement supervisé unifié (Unified-SFT) et une optimisation relative par groupe spécifique au personnage (Character-GRPO). À partir de seulement 10 images et d'exemples d'interaction correspondants, le modèle acquiert le personnage cible et affiche une personnalité, un style et une identité visuelle cohérents, tant dans le texte généré que dans les images. Ce processus prend environ 100 heures GPU. Les expériences sur l'ensemble de données RoleScape-20 montrent que la méthode proposée surpasse nettement les approches antérieures. Des études d'ablation valident en outre l'efficacité de notre conception de cohérence cross-modale et de stratégie de personnalisation en quelques échantillons. Nous soutenons que le CMRP, couplé à une modélisation unifiée, fournit une base pour la prochaine génération d'agents interactifs immersifs et dotés de caractère.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.