Naar gepersonaliseerd multimodaal rollenspel

Samenvatting

Unified multimodale begrips- en generatiemodellen maken rijkere mens-AI-interactie mogelijk. Het gezamenlijk aanpassen van het persona, de dialoogstijl en de visuele identiteit van een personage, terwijl de outputconsistentie over modaliteiten behouden blijft, is echter grotendeels onontgonnen. Om deze kloof te dichten, introduceren we een nieuwe taak: Customized Multimodal Role-Play (CMRP). We construeren de RoleScape-20-dataset bestaande uit 20 personages, met trainings- en evaluatiegegevens die persona, stilistische beschrijvingen, visuele/expressieve aanwijzingen en tekst-beeldinteracties omvatten. Voortbouwend op een unified model, ontwikkelen we UniCharacter, een tweetraps trainingsframework met Unified Supervised Finetuning (Unified-SFT) en personagespecifieke groepsrelatieve beleidsoptimalisatie (Character-GRPO). Met slechts 10 afbeeldingen plus bijbehorende interactievoorbeelden verwerft het model het doelpersonage en vertoont het een coherent persona, stijl en visuele identiteit in zowel gegenereerde tekst als afbeeldingen. Dit proces duurt ongeveer 100 GPU-uren. Experimenten op de RoleScape-20-dataset tonen aan dat de voorgestelde methode aanzienlijk beter presteert dan eerdere benaderingen. Ablatiestudies bevestigen verder de effectiviteit van onze cross-modale consistentieontwerp en few-shot-aanpassingsstrategie. We stellen dat CMRP, gekoppeld aan unified modeling, een basis biedt voor de volgende generatie karaktervolle en meeslepende interactieve agenten.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.