Karaktervermenging voor Videogeneratie
Character Mixing for Video Generation
October 6, 2025
Auteurs: Tingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou
cs.AI
Samenvatting
Stel je voor dat Mr. Bean een stap zet in de wereld van Tom en Jerry—kunnen we video’s genereren waarin personages op natuurlijke wijze interacteren tussen verschillende werelden? Wij onderzoeken inter-persoonsinteractie in tekst-naar-video-generatie, waarbij de belangrijkste uitdaging is om de identiteit en het gedrag van elk personage te behouden terwijl coherente interactie tussen verschillende contexten mogelijk wordt gemaakt. Dit is moeilijk omdat personages mogelijk nooit naast elkaar hebben bestaan en omdat het mengen van stijlen vaak leidt tot stijlverwarring, waarbij realistische personages er cartoonachtig uitzien of vice versa. Wij introduceren een raamwerk dat deze problemen aanpakt met Cross-Character Embedding (CCE), dat identiteit en gedragslogica leert uit multimodale bronnen, en Cross-Character Augmentation (CCA), dat de training verrijkt met synthetische co-existentie en gemengde-stijlgegevens. Samen maken deze technieken natuurlijke interacties mogelijk tussen personages die voorheen niet naast elkaar bestonden, zonder verlies van stilistische trouw. Experimenten op een samengestelde benchmark van tekenfilms en live-action series met 10 personages tonen duidelijke verbeteringen in identiteitsbehoud, interactiekwaliteit en robuustheid tegen stijlverwarring, wat nieuwe vormen van generatief vertellen mogelijk maakt. Aanvullende resultaten en video’s zijn beschikbaar op onze projectpagina: https://tingtingliao.github.io/mimix/.
English
Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where
characters interact naturally across different worlds? We study inter-character
interaction in text-to-video generation, where the key challenge is to preserve
each character's identity and behaviors while enabling coherent cross-context
interaction. This is difficult because characters may never have coexisted and
because mixing styles often causes style delusion, where realistic characters
appear cartoonish or vice versa. We introduce a framework that tackles these
issues with Cross-Character Embedding (CCE), which learns identity and
behavioral logic across multimodal sources, and Cross-Character Augmentation
(CCA), which enriches training with synthetic co-existence and mixed-style
data. Together, these techniques allow natural interactions between previously
uncoexistent characters without losing stylistic fidelity. Experiments on a
curated benchmark of cartoons and live-action series with 10 characters show
clear improvements in identity preservation, interaction quality, and
robustness to style delusion, enabling new forms of generative
storytelling.Additional results and videos are available on our project page:
https://tingtingliao.github.io/mimix/.