SCAIL: Verso un'Animazione di Personaggi di Qualità Studio tramite Apprendimento In-Contesto di Rappresentazioni di Posa 3D-Consistenti
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
Autori: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
Abstract
Il raggiungimento di animazioni di personaggi che soddisfino gli standard produttivi di livello studio rimane una sfida nonostante i recenti progressi. Gli approcci esistenti sono in grado di trasferire il movimento da un video guida a un'immagine di riferimento, ma spesso falliscono nel preservare la fedeltà strutturale e la coerenza temporale in scenari complessi che coinvolgono movimenti articolati e animazioni cross-identità. In questo lavoro, presentiamo SCAIL (Studio-grade Character Animation via In-context Learning), un framework concepito per affrontare queste criticità attraverso due innovazioni fondamentali. In primo luogo, proponiamo una nuova rappresentazione della posa 3D, che fornisce un segnale di movimento più robusto e flessibile. In secondo luogo, introduciamo un meccanismo di iniezione della posa a contesto completo all'interno di un'architettura diffusion-transformer, abilitando un ragionamento spazio-temporale efficace su intere sequenze di movimento. Per aderire ai requisiti di livello studio, sviluppiamo una pipeline di dati curata che garantisce sia diversità che qualità, e stabiliamo un benchmark completo per la valutazione sistematica. Gli esperimenti dimostrano che SCAIL raggiunge prestazioni allo stato dell'arte e avanza l'animazione dei personaggi verso l'affidabilità e il realismo di grado professionale.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.