SCAIL : Vers une Animation de Personnages de Qualité Studio via l'Apprentissage en Contexte de Représentations de Poses 3D-Cohérentes
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
papers.authors: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
papers.abstract
La réalisation d'animations de personnages répondant aux normes de production de qualité studio reste un défi malgré les progrès récents. Les approches existantes peuvent transférer le mouvement d'une vidéo pilote à une image de référence, mais échouent souvent à préserver la fidélité structurelle et la cohérence temporelle dans des scénarios complexes impliquant des mouvements élaborés et des animations trans-identitaires. Dans ce travail, nous présentons SCAIL (Animation de Personnages de Qualité Studio par Apprentissage Contextuel), un cadre conçu pour relever ces défis grâce à deux innovations clés. Premièrement, nous proposons une nouvelle représentation de pose 3D, offrant un signal de mouvement plus robuste et flexible. Deuxièmement, nous introduisons un mécanisme d'injection de pose en contexte complet au sein d'une architecture diffusion-transformer, permettant un raisonnement spatio-temporel efficace sur des séquences de mouvement entières. Pour répondre aux exigences de qualité studio, nous développons un pipeline de données organisé garantissant à la fois diversité et qualité, et établissons un benchmark complet pour une évaluation systématique. Les expériences montrent que SCAIL atteint des performances à la pointe de l'état de l'art et fait progresser l'animation de personnages vers une fiabilité et un réalisme de qualité studio.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.