ChatPaper.aiChatPaper

구조적 지도 없이 이루어지는 종단간 비디오 캐릭터 교체

End-to-End Video Character Replacement without Structural Guidance

January 13, 2026
저자: Zhengbo Xu, Jie Ma, Ziheng Wang, Zhan Peng, Jun Liang, Jing Li
cs.AI

초록

사용자가 제공한 신원 정보를 기반으로 한 제어 가능한 비디오 캐릭터 교체는 짝을 이루는 비디오 데이터 부족으로 인해 여전히 어려운 과제로 남아 있습니다. 기존 연구들은 주로 프레임별 분할 마스크와 명시적 구조적 지도(예: 골격, 깊이)를 필요로 하는 재구성 기반 패러다임에 의존해왔습니다. 그러나 이러한 의존성은 가림, 캐릭터-객체 상호작용, 비정형적인 자세, 또는 어려운 조명 조건을 포함하는 복잡한 시나리오에서 일반화 성능을 심각하게 제한하며, 종종 시각적 아티팩트와 시간적 불일치를 초래합니다. 본 논문에서는 단일 임의 프레임 마스크만을 요구하여 이러한 한계를 우회하는 선도적인 프레임워크인 MoCha를 제안합니다. 다중 모드 입력 조건을 효과적으로 적용하고 얼굴 신원 정보를 향상시키기 위해 조건 인식 RoPE를 도입하고 RL 기반 사후 훈련 단계를 활용합니다. 더 나아가, 적합한 짝을 이루는 훈련 데이터의 부족 문제를 극복하기 위해 포괄적인 데이터 구축 파이프라인을 제안합니다. 구체적으로 Unreal Engine 5(UE5)로 구축된 고품질 렌더링 데이터셋, 현재의 초상화 애니메이션 기술로 합성된 표정 주도 데이터셋, 그리고 기존 비디오-마스크 쌍에서 파생된 증강 데이터셋이라는 세 가지 특화된 데이터셋을 설계합니다. 광범위한 실험을 통해 우리의 방법이 기존 최첨단 접근법을 크게 능가함을 입증합니다. 향후 연구를 촉진하기 위해 코드를 공개할 예정입니다. 자세한 내용은 프로젝트 페이지(orange-3dv-team.github.io/MoCha)를 참조하십시오.
English
Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha
PDF51January 15, 2026