Mélange de personnages pour la génération vidéo

papers.abstract

Imaginez M. Bean entrant dans l'univers de Tom et Jerry—pouvons-nous générer des vidéos où des personnages interagissent naturellement à travers différents mondes ? Nous étudions l'interaction interpersonnage dans la génération de vidéos à partir de texte, où le défi principal est de préserver l'identité et les comportements de chaque personnage tout en permettant une interaction cohérente entre des contextes différents. Cela est difficile car les personnages n'ont peut-être jamais coexisté et parce que le mélange de styles provoque souvent une illusion de style, où des personnages réalistes apparaissent caricaturaux ou vice versa. Nous introduisons un cadre qui aborde ces problèmes avec l'Embedding Interpersonnage (Cross-Character Embedding, CCE), qui apprend l'identité et la logique comportementale à partir de sources multimodales, et l'Augmentation Interpersonnage (Cross-Character Augmentation, CCA), qui enrichit l'entraînement avec des données synthétiques de coexistence et de styles mixtes. Ensemble, ces techniques permettent des interactions naturelles entre des personnages qui n'ont jamais coexisté, sans perdre la fidélité stylistique. Les expériences sur un benchmark soigneusement sélectionné de dessins animés et de séries en prise de vue réelle avec 10 personnages montrent des améliorations nettes en matière de préservation de l'identité, de qualité d'interaction et de robustesse face à l'illusion de style, ouvrant la voie à de nouvelles formes de narration générative. Des résultats supplémentaires et des vidéos sont disponibles sur notre page de projet : https://tingtingliao.github.io/mimix/.

English

Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where characters interact naturally across different worlds? We study inter-character interaction in text-to-video generation, where the key challenge is to preserve each character's identity and behaviors while enabling coherent cross-context interaction. This is difficult because characters may never have coexisted and because mixing styles often causes style delusion, where realistic characters appear cartoonish or vice versa. We introduce a framework that tackles these issues with Cross-Character Embedding (CCE), which learns identity and behavioral logic across multimodal sources, and Cross-Character Augmentation (CCA), which enriches training with synthetic co-existence and mixed-style data. Together, these techniques allow natural interactions between previously uncoexistent characters without losing stylistic fidelity. Experiments on a curated benchmark of cartoons and live-action series with 10 characters show clear improvements in identity preservation, interaction quality, and robustness to style delusion, enabling new forms of generative storytelling.Additional results and videos are available on our project page: https://tingtingliao.github.io/mimix/.

Mélange de personnages pour la génération vidéo

Character Mixing for Video Generation

papers.abstract

Support