Mélange de personnages pour la génération vidéo
Character Mixing for Video Generation
October 6, 2025
papers.authors: Tingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou
cs.AI
papers.abstract
Imaginez M. Bean entrant dans l'univers de Tom et Jerry—pouvons-nous générer des vidéos où des personnages interagissent naturellement à travers différents mondes ? Nous étudions l'interaction interpersonnage dans la génération de vidéos à partir de texte, où le défi principal est de préserver l'identité et les comportements de chaque personnage tout en permettant une interaction cohérente entre des contextes différents. Cela est difficile car les personnages n'ont peut-être jamais coexisté et parce que le mélange de styles provoque souvent une illusion de style, où des personnages réalistes apparaissent caricaturaux ou vice versa. Nous introduisons un cadre qui aborde ces problèmes avec l'Embedding Interpersonnage (Cross-Character Embedding, CCE), qui apprend l'identité et la logique comportementale à partir de sources multimodales, et l'Augmentation Interpersonnage (Cross-Character Augmentation, CCA), qui enrichit l'entraînement avec des données synthétiques de coexistence et de styles mixtes. Ensemble, ces techniques permettent des interactions naturelles entre des personnages qui n'ont jamais coexisté, sans perdre la fidélité stylistique. Les expériences sur un benchmark soigneusement sélectionné de dessins animés et de séries en prise de vue réelle avec 10 personnages montrent des améliorations nettes en matière de préservation de l'identité, de qualité d'interaction et de robustesse face à l'illusion de style, ouvrant la voie à de nouvelles formes de narration générative. Des résultats supplémentaires et des vidéos sont disponibles sur notre page de projet : https://tingtingliao.github.io/mimix/.
English
Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where
characters interact naturally across different worlds? We study inter-character
interaction in text-to-video generation, where the key challenge is to preserve
each character's identity and behaviors while enabling coherent cross-context
interaction. This is difficult because characters may never have coexisted and
because mixing styles often causes style delusion, where realistic characters
appear cartoonish or vice versa. We introduce a framework that tackles these
issues with Cross-Character Embedding (CCE), which learns identity and
behavioral logic across multimodal sources, and Cross-Character Augmentation
(CCA), which enriches training with synthetic co-existence and mixed-style
data. Together, these techniques allow natural interactions between previously
uncoexistent characters without losing stylistic fidelity. Experiments on a
curated benchmark of cartoons and live-action series with 10 characters show
clear improvements in identity preservation, interaction quality, and
robustness to style delusion, enabling new forms of generative
storytelling.Additional results and videos are available on our project page:
https://tingtingliao.github.io/mimix/.