SCAIL: К созданию студийной анимации персонажей через контекстное обучение 3D-согласованных представлений поз
SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations
December 5, 2025
Авторы: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI
Аннотация
Несмотря на недавний прогресс, создание анимации персонажей, соответствующей студийным стандартам производства, остается сложной задачей. Существующие подходы позволяют переносить движение с исходного видео на эталонное изображение, но часто не обеспечивают сохранения структурной точности и временной согласованности в сложных сценариях, включающих комплексные движения и анимацию между различными идентичностями. В данной работе мы представляем SCAIL (Studio-grade Character Animation via In-context Learning) — фреймворк, разработанный для решения этих проблем на основе двух ключевых инноваций. Во-первых, мы предлагаем новое представление трехмерных поз, обеспечивающее более надежный и гибкий сигнал движения. Во-вторых, мы внедряем механизм полноконтекстной инъекции поз в архитектуру диффузионного трансформера, что позволяет эффективно анализировать пространственно-временные зависимости в полных последовательностях движений. Для соответствия студийным требованиям мы разработали курируемый конвейер данных, обеспечивающий как разнообразие, так и качество, а также создали комплексный бенчмарк для систематической оценки. Эксперименты показывают, что SCAIL демонстрирует передовую производительность и приближает анимацию персонажей к студийной надежности и реализму.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.