Hacia un juego de roles multimodal personalizado

Resumen

Los modelos unificados de comprensión y generación multimodal permiten una interacción humano-IA más rica. Sin embargo, la personalización conjunta de la personalidad, el estilo de diálogo y la identidad visual de un personaje, manteniendo la consistencia de los resultados entre modalidades, sigue siendo un área en gran medida inexplorada. Para subsanar esta brecha, presentamos una nueva tarea, Customized Multimodal Role-Play (CMRP). Construimos el conjunto de datos RoleScape-20, que comprende 20 personajes e incluye datos de entrenamiento y evaluación que cubren personalidad, descripciones estilísticas, señales visuales/expresivas e interacciones texto-imagen. Partiendo de un modelo unificado, diseñamos UniCharacter, un marco de entrenamiento en dos etapas que incluye Ajuste Fino Supervisado Unificado (Unified-SFT) y Optimización de Política Relativa Grupal específica de personaje (Character-GRPO). Con solo 10 imágenes y ejemplos de interacción correspondientes, el modelo adquiere el personaje objetivo y muestra una personalidad, estilo e identidad visual coherentes tanto en el texto como en las imágenes generadas. Este proceso toma aproximadamente 100 horas de GPU. Los experimentos en el conjunto de datos RoleScape-20 muestran que el método propuesto supera sustancialmente a los enfoques previos. Los estudios de ablación validan adicionalmente la efectividad de nuestro diseño de consistencia entre modalidades y la estrategia de personalización con pocos ejemplos. Sostenemos que CMRP, junto con el modelado unificado, proporciona una base para agentes interactivos de nueva generación, con personalidad e inmersivos.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.