Mistura de Caracteres para Geração de Vídeo
Character Mixing for Video Generation
October 6, 2025
Autores: Tingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou
cs.AI
Resumo
Imagine o Mr. Bean entrando no mundo de Tom e Jerry—será que podemos gerar vídeos onde personagens interagem naturalmente em diferentes universos? Estudamos a interação entre personagens na geração de vídeos a partir de texto, onde o principal desafio é preservar a identidade e os comportamentos de cada personagem enquanto permitimos uma interação coerente entre contextos diferentes. Isso é difícil porque os personagens podem nunca ter coexistido e porque a mistura de estilos frequentemente causa uma ilusão de estilo, onde personagens realistas parecem caricatos ou vice-versa. Introduzimos um framework que aborda esses problemas com o Cross-Character Embedding (CCE), que aprende a identidade e a lógica comportamental a partir de fontes multimodais, e o Cross-Character Augmentation (CCA), que enriquece o treinamento com dados sintéticos de coexistência e mistura de estilos. Juntas, essas técnicas permitem interações naturais entre personagens que antes não coexistiam, sem perder a fidelidade estilística. Experimentos em um benchmark curado de desenhos animados e séries live-action com 10 personagens mostram melhorias claras na preservação da identidade, qualidade da interação e robustez à ilusão de estilo, possibilitando novas formas de narrativa generativa. Resultados adicionais e vídeos estão disponíveis em nossa página do projeto: https://tingtingliao.github.io/mimix/.
English
Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where
characters interact naturally across different worlds? We study inter-character
interaction in text-to-video generation, where the key challenge is to preserve
each character's identity and behaviors while enabling coherent cross-context
interaction. This is difficult because characters may never have coexisted and
because mixing styles often causes style delusion, where realistic characters
appear cartoonish or vice versa. We introduce a framework that tackles these
issues with Cross-Character Embedding (CCE), which learns identity and
behavioral logic across multimodal sources, and Cross-Character Augmentation
(CCA), which enriches training with synthetic co-existence and mixed-style
data. Together, these techniques allow natural interactions between previously
uncoexistent characters without losing stylistic fidelity. Experiments on a
curated benchmark of cartoons and live-action series with 10 characters show
clear improvements in identity preservation, interaction quality, and
robustness to style delusion, enabling new forms of generative
storytelling.Additional results and videos are available on our project page:
https://tingtingliao.github.io/mimix/.