Sostituzione End-to-End di Personaggi Video senza Guida Strutturale

Abstract

La sostituzione controllabile di personaggi video con un'identità fornita dall'utente rimane un problema complesso a causa della mancanza di dati video accoppiati. I lavori precedenti si sono basati prevalentemente su un paradigma di tipo ricostruttivo che richiede maschere di segmentazione per ogni fotogramma e una guida strutturale esplicita (ad esempio, scheletro, profondità). Questa dipendenza, tuttavia, limita fortemente la loro generalizzabilità in scenari complessi che coinvolgono occlusioni, interazioni personaggio-oggetto, pose insolite o illuminazione difficoltosa, portando spesso ad artefatti visivi e incoerenze temporali. In questo articolo, proponiamo MoCha, un framework pionieristico che supera questi limiti richiedendo solo una singola maschera di fotogramma arbitraria. Per adattare efficacemente la condizione di input multi-modale e migliorare l'identità facciale, introduciamo un RoPE (Rotary Position Embedding) consapevole delle condizioni e impieghiamo una fase di post-addestramento basata su RL (Reinforcement Learning). Inoltre, per ovviare alla scarsità di dati di addestramento accoppiati e qualificati, proponiamo una pipeline completa per la costruzione dei dati. Nello specifico, progettiamo tre dataset specializzati: un dataset renderizzato ad alta fedeltà creato con Unreal Engine 5 (UE5), un dataset guidato dalle espressioni sintetizzato con le attuali tecniche di animazione ritrattistica e un dataset aumentato derivato da coppie video-maschera esistenti. Esperimenti estensivi dimostrano che il nostro metodo supera sostanzialmente gli approcci allo stato dell'arte esistenti. Rilasceremo il codice per facilitare ulteriori ricerche. Per maggiori dettagli, si prega di consultare la nostra pagina del progetto: orange-3dv-team.github.io/MoCha

English

Controllable video character replacement with a user-provided identity remains a challenging problem due to the lack of paired video data. Prior works have predominantly relied on a reconstruction-based paradigm that requires per-frame segmentation masks and explicit structural guidance (e.g., skeleton, depth). This reliance, however, severely limits their generalizability in complex scenarios involving occlusions, character-object interactions, unusual poses, or challenging illumination, often leading to visual artifacts and temporal inconsistencies. In this paper, we propose MoCha, a pioneering framework that bypasses these limitations by requiring only a single arbitrary frame mask. To effectively adapt the multi-modal input condition and enhance facial identity, we introduce a condition-aware RoPE and employ an RL-based post-training stage. Furthermore, to overcome the scarcity of qualified paired-training data, we propose a comprehensive data construction pipeline. Specifically, we design three specialized datasets: a high-fidelity rendered dataset built with Unreal Engine 5 (UE5), an expression-driven dataset synthesized by current portrait animation techniques, and an augmented dataset derived from existing video-mask pairs. Extensive experiments demonstrate that our method substantially outperforms existing state-of-the-art approaches. We will release the code to facilitate further research. Please refer to our project page for more details: orange-3dv-team.github.io/MoCha

Sostituzione End-to-End di Personaggi Video senza Guida Strutturale

End-to-End Video Character Replacement without Structural Guidance

Abstract

Support