Mistura de Caracteres para Geração de Vídeo

Resumo

Imagine o Mr. Bean entrando no mundo de Tom e Jerry—será que podemos gerar vídeos onde personagens interagem naturalmente em diferentes universos? Estudamos a interação entre personagens na geração de vídeos a partir de texto, onde o principal desafio é preservar a identidade e os comportamentos de cada personagem enquanto permitimos uma interação coerente entre contextos diferentes. Isso é difícil porque os personagens podem nunca ter coexistido e porque a mistura de estilos frequentemente causa uma ilusão de estilo, onde personagens realistas parecem caricatos ou vice-versa. Introduzimos um framework que aborda esses problemas com o Cross-Character Embedding (CCE), que aprende a identidade e a lógica comportamental a partir de fontes multimodais, e o Cross-Character Augmentation (CCA), que enriquece o treinamento com dados sintéticos de coexistência e mistura de estilos. Juntas, essas técnicas permitem interações naturais entre personagens que antes não coexistiam, sem perder a fidelidade estilística. Experimentos em um benchmark curado de desenhos animados e séries live-action com 10 personagens mostram melhorias claras na preservação da identidade, qualidade da interação e robustez à ilusão de estilo, possibilitando novas formas de narrativa generativa. Resultados adicionais e vídeos estão disponíveis em nossa página do projeto: https://tingtingliao.github.io/mimix/.

English

Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where characters interact naturally across different worlds? We study inter-character interaction in text-to-video generation, where the key challenge is to preserve each character's identity and behaviors while enabling coherent cross-context interaction. This is difficult because characters may never have coexisted and because mixing styles often causes style delusion, where realistic characters appear cartoonish or vice versa. We introduce a framework that tackles these issues with Cross-Character Embedding (CCE), which learns identity and behavioral logic across multimodal sources, and Cross-Character Augmentation (CCA), which enriches training with synthetic co-existence and mixed-style data. Together, these techniques allow natural interactions between previously uncoexistent characters without losing stylistic fidelity. Experiments on a curated benchmark of cartoons and live-action series with 10 characters show clear improvements in identity preservation, interaction quality, and robustness to style delusion, enabling new forms of generative storytelling.Additional results and videos are available on our project page: https://tingtingliao.github.io/mimix/.

Mistura de Caracteres para Geração de Vídeo

Character Mixing for Video Generation

Resumo

Support