SCAIL: 3D 일관적 포즈 표현의 인-컨텍스트 학습을 통한 스튜디오급 캐릭터 애니메이션 구현
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
저자: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
초록
최근의 진전에도 불구하고 스튜디오 급 생산 기준을 충족하는 캐릭터 애니메이션 구현은 여전히 과제로 남아 있습니다. 기존 접근법은 구동 비디오의 모션을 참조 이미지로 전달할 수 있지만, 복잡한 모션과 크로스 아이덴티티 애니메이션을 포함한 실제 환경에서 구조적 정확도와 시간적 일관성을 유지하는 데 종종 실패합니다. 본 연구에서는 두 가지 핵심 혁신을 통해 이러한 과제를 해결하기 위해 설계된 프레임워크인 SCAIL(맥락 학습 기반 스튜디오 급 캐릭터 애니메이션)을 제시합니다. 첫째, 보다 강력하고 유연한 모션 신호를 제공하는 새로운 3D 포즈 표현 방식을 제안합니다. 둘째, 디퓨전-트랜스포머 아키텍처 내에서 전체 맥락 포즈 주입 메커니즘을 도입하여 전체 모션 시퀀스에 대한 효과적인 시공간 추론을 가능하게 합니다. 스튜디오 수준의 요구사항에 부응하기 위해 다양성과 품질을 모두 보장하는 정제된 데이터 파이프라인을 구축하고, 체계적인 평가를 위한 포괄적인 벤치마크를 마련했습니다. 실험 결과, SCAIL은 최첨단 성능을 달성하며 캐릭터 애니메이션의 스튜디오 급 신뢰성과 사실감을 한 단계 발전시킴을 보여줍니다.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.