Substituição de Personagens em Vídeo de Forma Integral sem Orientação Estrutural

Resumo

A substituição controlável de personagens em vídeo com uma identidade fornecida pelo utilizador continua a ser um problema desafiador devido à falta de dados de vídeo emparelhados. Trabalhos anteriores basearam-se predominantemente num paradigma de reconstrução que requer máscaras de segmentação por fotograma e orientação estrutural explícita (por exemplo, esqueleto, profundidade). Esta dependência, no entanto, limita severamente a sua generalização em cenários complexos que envolvem oclusões, interações personagem-objeto, poses incomuns ou iluminação desafiadora, frequentemente resultando em artefactos visuais e inconsistências temporais. Neste artigo, propomos o MoCha, uma estrutura pioneira que contorna estas limitações ao requerer apenas uma única máscara de fotograma arbitrária. Para adaptar eficazmente a condição de entrada multimodal e realçar a identidade facial, introduzimos um RoPE consciente da condição e empregamos uma fase de pós-treino baseada em RL. Adicionalmente, para superar a escassez de dados de treino emparelhados qualificados, propomos um pipeline abrangente de construção de dados. Especificamente, concebemos três conjuntos de dados especializados: um conjunto de dados renderizado de alta fidelidade construído com o Unreal Engine 5 (UE5), um conjunto de dados orientado por expressão sintetizado por técnicas atuais de animação de retrato, e um conjunto de dados aumentado derivado de pares vídeo-máscara existentes. Experiências extensivas demonstram que o nosso método supera substancialmente as abordagens state-of-the-art existentes. Disponibilizaremos o código para facilitar investigação futura. Consulte a nossa página do projeto para mais detalhes: orange-3dv-team.github.io/MoCha

English

Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha

Substituição de Personagens em Vídeo de Forma Integral sem Orientação Estrutural

End-to-End Video Character Replacement without Structural Guidance

Resumo

Support