End-to-End Karaktervervanging in Video zonder Structurele Begeleiding
End-to-End Video Character Replacement without Structural Guidance
January 13, 2026
Auteurs: Zhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li
cs.AI
Samenvatting
Beheerbare vervanging van personages in video's met een door de gebruiker geleverde identiteit blijft een uitdagend probleem door het gebrek aan gepaarde videogegevens. Eerdere werken hebben voornamelijk vertrouwd op een op reconstructie gebaseerd paradigma dat per-frame segmentatiemaskers en expliciete structurele begeleiding (bijvoorbeeld skelet, diepte) vereist. Deze afhankelijkheid beperkt echter ernstig hun generaliseerbaarheid in complexe scenario's met occlusies, interacties tussen personages en objecten, ongebruikelijke poses of uitdagende belichting, wat vaak leidt tot visuele artefacten en temporele inconsistenties. In dit artikel stellen we MoCha voor, een baanbrekend framework dat deze beperkingen omzeilt door slechts één willekeurig framemasker te vereisen. Om de multimodale invoervoorwaarde effectief aan te passen en de gezichtsidentiteit te verbeteren, introduceren we een conditiebewuste RoPE en zetten we een RL-gebaseerde post-trainingfase in. Verder, om het tekort aan gekwalificeerde gepaarde trainingsgegevens te overwinnen, stellen we een uitgebreide pijplijn voor dataconstructie voor. Specifiek ontwerpen we drie gespecialiseerde datasets: een hoogwaardige gerenderde dataset gebouwd met Unreal Engine 5 (UE5), een expressiegedreven dataset gesynthetiseerd door huidige portretanimatietechnieken, en een uitgebreide dataset afgeleid van bestaande video-maskerparen. Uitgebreide experimenten tonen aan dat onze methode bestaande state-of-the-art benaderingen aanzienlijk overtreft. We zullen de code vrijgeven om verder onderzoek te vergemakkelijken. Raadpleeg onze projectpagina voor meer details: orange-3dv-team.github.io/MoCha
English
Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha