Rumo ao Role-Play Multimodal Personalizado

Resumo

Modelos unificados de compreensão e geração multimodal possibilitam uma interação humano-AI mais rica. No entanto, personalizar conjuntamente a persona, o estilo de diálogo e a identidade visual de um personagem, mantendo a consistência da saída entre modalidades, permanece amplamente inexplorado. Para mitigar essa lacuna, introduzimos uma nova tarefa, Role-Play Multimodal Personalizado (CMRP). Construímos o conjunto de dados RoleScape-20, composto por 20 personagens, incluindo dados de treinamento e avaliação que abrangem persona, descrições estilísticas, dicas visuais/expressivas e interações texto-imagem. Baseando-se em um modelo unificado, concebemos o UniCharacter, uma estrutura de treinamento em dois estágios contendo Finetuning Supervisionado Unificado (Unified-SFT) e otimização de política relativa a grupo específica de personagem (Character-GRPO). Com apenas 10 imagens mais exemplos de interação correspondentes, o modelo adquire o personagem alvo e exibe persona, estilo e identidade visual coerentes tanto no texto quanto nas imagens geradas. Esse processo leva cerca de 100 horas de GPU. Experimentos no conjunto de dados RoleScape-20 mostram que o método proposto supera substancialmente as abordagens anteriores. Estudos de ablação validam ainda mais a eficácia do nosso design de consistência cross-modal e da estratégia de personalização few-shot. Argumentamos que o CMRP, combinado com modelagem unificada, fornece uma base para agentes interativos imersivos e cheios de personalidade da próxima geração.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.