К кастомизированному мультимодальному ролевому взаимодействию

Аннотация

Модели унифицированного мультимодального понимания и генерации обеспечивают более богатое взаимодействие человека и ИИ. Однако совместная настройка личности персонажа, стиля диалога и визуальной идентичности при сохранении согласованности вывода между модальностями остается в значительной степени неисследованной. Чтобы восполнить этот пробел, мы представляем новую задачу — кастомизированную мультимодальную ролевую игру (Customized Multimodal Role-Play, CMRP). Мы создаем набор данных RoleScape-20, включающий 20 персонажей, а также данные для обучения и оценки, которые охватывают личность, стилистические описания, визуальные/экспрессивные сигналы и взаимодействие текста и изображений. Основываясь на унифицированной модели, мы разрабатываем UniCharacter — двухэтапную структуру обучения, содержащую унифицированную тонкую настройку с учителем (Unified Supervised Finetuning, Unified-SFT) и групповую оптимизацию относительной политики для конкретного персонажа (Character-specific Group Relative Policy Optimization, Character-GRPO). Имея всего 10 изображений и соответствующие примеры взаимодействия, модель усваивает целевого персонажа и демонстрирует согласованную личность, стиль и визуальную идентичность как в генерируемом тексте, так и в изображениях. Этот процесс занимает около 100 часов на GPU. Эксперименты на наборе данных RoleScape-20 показывают, что предложенный метод значительно превосходит предыдущие подходы. Абляционные исследования дополнительно подтверждают эффективность нашего дизайна кросс-модальной согласованности и стратегии кастомизации с несколькими примерами. Мы утверждаем, что CMRP в сочетании с унифицированным моделированием обеспечивает основу для создания следующих поколений выразительных и захватывающих интерактивных агентов.

English

Unified multimodal understanding and generation models enable richer human-AI interaction. Yet jointly customizing a character's persona, dialogue style, and visual identity while maintaining output consistency across modalities remains largely unexplored. To mitigate this gap, we introduce a new task, Customized Multimodal Role-Play (CMRP). We construct the RoleScape-20 dataset comprising 20 characters, including training and evaluation data that cover persona, stylistic descriptions, visual/expressive cues, and text-image interactions. Building on a unified model, we devise UniCharacter, a two-stage training framework containing Unified Supervised Finetuning (Unified-SFT) and character-specific group relative policy optimization (Character-GRPO). Given only 10 images plus corresponding interaction examples, the model acquires the target character and exhibits coherent persona, style, and visual identity in both generated text and images. This process takes about 100 GPU hours. Experiments on the RoleScape-20 dataset show that the proposed method substantially outperforms prior approaches. Ablation studies further validate the effectiveness of our cross-modal consistency design and few-shot customization strategy. We argue that CMRP, coupled with unified modeling, provides a basis for next-generation characterful and immersive interactive agents.