ChatPaper.aiChatPaper

Сквозная замена персонажей в видео без структурного руководства

End-to-End Video Character Replacement without Structural Guidance

January 13, 2026
Авторы: Zhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li
cs.AI

Аннотация

Управляемая замена персонажей в видео с использованием предоставленного пользователем идентификатора остается сложной проблемой из-за отсутствия парных видеоданных. Предыдущие работы в основном опирались на парадигму, основанную на реконструкции, которая требует масок сегментации для каждого кадра и явных структурных ориентиров (например, скелетона, карты глубины). Однако эта зависимость серьезно ограничивает их обобщающую способность в сложных сценариях, включающих окклюзии, взаимодействия персонажа с объектами, нестандартные позы или сложное освещение, что часто приводит к визуальным артефактам и временной несогласованности. В данной статье мы предлагаем MoCha, новаторскую архитектуру, которая обходит эти ограничения, требуя лишь одну произвольную маску кадра. Для эффективной адаптации многомодального входного условия и усиления идентичности лица мы вводим условие-зависимый RoPE (Rotary Position Embedding) и используем этап пост-обучения на основе обучения с подкреплением (RL). Кроме того, для преодоления дефицита качественных парных данных для обучения мы предлагаем комплексный конвейер построения данных. В частности, мы разрабатываем три специализированных набора данных: высокодетализированный рендеренный набор данных, созданный с помощью Unreal Engine 5 (UE5), набор данных, управляемый выражением лиц, синтезированный современными техниками анимации портретов, и аугментированный набор данных, полученный из существующих пар видео-маска. Многочисленные эксперименты демонстрируют, что наш метод существенно превосходит существующие передовые подходы. Мы опубликуем код для содействия дальнейшим исследованиям. Более подробная информация доступна на странице нашего проекта: orange-3dv-team.github.io/MoCha.
English
Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha
PDF51January 15, 2026