ChatPaper.aiChatPaper

Karaktervermenging voor Videogeneratie

Character Mixing for Video Generation

October 6, 2025
Auteurs: Tingting Liao, Chongjian Ge, Guangyi Liu, Hao Li, Yi Zhou
cs.AI

Samenvatting

Stel je voor dat Mr. Bean een stap zet in de wereld van Tom en Jerry—kunnen we video’s genereren waarin personages op natuurlijke wijze interacteren tussen verschillende werelden? Wij onderzoeken inter-persoonsinteractie in tekst-naar-video-generatie, waarbij de belangrijkste uitdaging is om de identiteit en het gedrag van elk personage te behouden terwijl coherente interactie tussen verschillende contexten mogelijk wordt gemaakt. Dit is moeilijk omdat personages mogelijk nooit naast elkaar hebben bestaan en omdat het mengen van stijlen vaak leidt tot stijlverwarring, waarbij realistische personages er cartoonachtig uitzien of vice versa. Wij introduceren een raamwerk dat deze problemen aanpakt met Cross-Character Embedding (CCE), dat identiteit en gedragslogica leert uit multimodale bronnen, en Cross-Character Augmentation (CCA), dat de training verrijkt met synthetische co-existentie en gemengde-stijlgegevens. Samen maken deze technieken natuurlijke interacties mogelijk tussen personages die voorheen niet naast elkaar bestonden, zonder verlies van stilistische trouw. Experimenten op een samengestelde benchmark van tekenfilms en live-action series met 10 personages tonen duidelijke verbeteringen in identiteitsbehoud, interactiekwaliteit en robuustheid tegen stijlverwarring, wat nieuwe vormen van generatief vertellen mogelijk maakt. Aanvullende resultaten en video’s zijn beschikbaar op onze projectpagina: https://tingtingliao.github.io/mimix/.
English
Imagine Mr. Bean stepping into Tom and Jerry--can we generate videos where characters interact naturally across different worlds? We study inter-character interaction in text-to-video generation, where the key challenge is to preserve each character's identity and behaviors while enabling coherent cross-context interaction. This is difficult because characters may never have coexisted and because mixing styles often causes style delusion, where realistic characters appear cartoonish or vice versa. We introduce a framework that tackles these issues with Cross-Character Embedding (CCE), which learns identity and behavioral logic across multimodal sources, and Cross-Character Augmentation (CCA), which enriches training with synthetic co-existence and mixed-style data. Together, these techniques allow natural interactions between previously uncoexistent characters without losing stylistic fidelity. Experiments on a curated benchmark of cartoons and live-action series with 10 characters show clear improvements in identity preservation, interaction quality, and robustness to style delusion, enabling new forms of generative storytelling.Additional results and videos are available on our project page: https://tingtingliao.github.io/mimix/.
PDF52October 7, 2025