SCAIL: Auf dem Weg zu Studio-gleichen Charakteranimationen durch In-Context-Lernen 3D-konsistenter Posendarstellungen
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
papers.authors: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
papers.abstract
Die Erstellung von Charakteranimationen, die den Produktionsstandards von Studios entsprechen, bleibt trotz jüngster Fortschritte eine Herausforderung. Bestehende Ansätze können Bewegungen aus einem Quellvideo auf ein Referenzbild übertragen, scheitern jedoch häufig daran, die strukturelle Treue und zeitliche Konsistenz in komplexen Szenarien mit anspruchsvollen Bewegungen und identitätsübergreifenden Animationen zu bewahren. In dieser Arbeit stellen wir SCAIL (Studio-grade Character Animation via In-context Learning) vor, ein Framework, das diese Herausforderungen durch zwei zentrale Innovationen adressiert. Erstens schlagen wir eine neuartige 3D-Posen-Repräsentation vor, die ein robusteres und flexibleres Bewegungssignal liefert. Zweitens führen wir einen Full-Context-Posen-Injektionsmechanismus in einer Diffusion-Transformer-Architektur ein, der eine effektive räumlich-zeitliche Analyse vollständiger Bewegungssequenzen ermöglicht. Um den Anforderungen auf Studio-Niveau gerecht zu werden, entwickelten wir eine kuratierte Datenpipeline, die sowohl Vielfalt als auch Qualität sicherstellt, und etablierten einen umfassenden Benchmark für die systematische Evaluation. Experimente zeigen, dass SCAIL state-of-the-art Leistung erzielt und Charakteranimation in Richtung studio-tauglicher Zuverlässigkeit und Realitätsnähe voranbringt.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.