SCAIL: Op Weg naar Studio-Kwaliteit Karakteranimatie via In-Context Leren van 3D-Consistente Posesrepresentaties
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
Auteurs: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
Samenvatting
Het bereiken van karakteranimatie die voldoet aan studio-kwaliteit productiestandaarden blijft een uitdaging ondanks recente vooruitgang. Bestaande benaderingen kunnen beweging overzetten van een brontvideo naar een referentiebeeld, maar slagen er vaak niet in structurele nauwkeurigheid en temporele consistentie te behouden in complexe scenario's met ingewikkelde bewegingen en cross-identiteitsanimaties. In dit werk presenteren we SCAIL (Studio-grade Character Animation via In-context Learning), een raamwerk ontworpen om deze uitdagingen aan te pakken met twee belangrijke innovaties. Ten eerste introduceren we een nieuwe 3D-positieweergave die een robuuster en flexibeler bewegingssignaal biedt. Ten tweede presenteren we een full-context positie-injectiemechanisme binnen een diffusie-transformerarchitectuur, dat effectieve spatio-temporele redenering over volledige bewegingssequenties mogelijk maakt. Om aan studio-eisen te voldoen, ontwikkelen we een gecureerd datapipeline die zowel diversiteit als kwaliteit waarborgt, en stellen we een uitgebreide benchmark op voor systematische evaluatie. Experimenten tonen aan dat SCAIL state-of-the-art prestaties bereikt en karakteranimatie naar studio-kwaliteit betrouwbaarheid en realisme voortstuwt.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.