Auf dem Weg zu maßgeschneidertem multimodalem Rollenspiel

Zusammenfassung

Vereinheitlichte multimodale Verständnis- und Generierungsmodelle ermöglichen eine reichhaltigere Mensch-KI-Interaktion. Dennoch bleibt die gemeinsame Anpassung der Persönlichkeit, des Dialogstils und der visuellen Identität einer Figur bei gleichzeitiger Wahrung der Ausgabekonsistenz über Modalitäten hinweg weitgehend unerforscht. Um diese Lücke zu schließen, führen wir eine neue Aufgabe ein, das angepasste multimodale Rollenspiel (CMRP). Wir konstruieren den Datensatz RoleScape-20, der 20 Figuren umfasst, einschließlich Trainings- und Evaluationsdaten, die Persönlichkeit, stilistische Beschreibungen, visuelle/expressive Hinweise sowie Text-Bild-Interaktionen abdecken. Aufbauend auf einem vereinheitlichten Modell entwickeln wir UniCharacter, ein zweistufiges Trainingsframework, das Unified Supervised Finetuning (Unified-SFT) und figurenspezifische Gruppen-Richtlinienoptimierung (Character-GRPO) beinhaltet. Mit nur 10 Bildern und entsprechenden Interaktionsbeispielen erwirbt das Modell die Zielfigur und zeigt sowohl im generierten Text als auch in den Bildern eine kohärente Persönlichkeit, einen kohärenten Stil und eine kohärente visuelle Identität. Dieser Prozess benötigt etwa 100 GPU-Stunden. Experimente auf dem RoleScape-20-Datensatz zeigen, dass die vorgeschlagene Methode bisherige Ansätze deutlich übertrifft. Ablationsstudien bestätigen zudem die Wirksamkeit unseres Designs zur kreuzmodalen Konsistenz und unserer Few-Shot-Anpassungsstrategie. Wir argumentieren, dass CMRP in Verbindung mit vereinheitlichter Modellierung eine Grundlage für die nächste Generation charaktervoller und immersiver interaktiver Agenten bietet.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.