ChatPaper.aiChatPaper

SCAIL: Hacia la Animación de Personajes de Calidad de Estudio mediante el Aprendizaje en Contexto de Representaciones de Pose 3D-Consistentes

SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

December 5, 2025
Autores: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI

Resumen

Lograr animación de personajes que cumpla con los estándares de producción de nivel profesional sigue siendo un desafío a pesar de los recientes avances. Los enfoques existentes pueden transferir movimiento desde un video de referencia a una imagen estática, pero a menudo fallan en preservar la fidelidad estructural y la coherencia temporal en escenarios complejos que involucran movimientos intrincados y animaciones entre identidades diferentes. En este trabajo, presentamos SCAIL (Character Animation de Estudio mediante Aprendizaje Contextual), un marco diseñado para abordar estos desafíos mediante dos innovaciones clave. Primero, proponemos una novedosa representación de poses 3D que proporciona una señal de movimiento más robusta y flexible. Segundo, introducimos un mecanismo de inyección de poses de contexto completo dentro de una arquitectura difusión-transformer, permitiendo un razonamiento espacio-temporal efectivo sobre secuencias completas de movimiento. Para alinearnos con los requisitos de nivel profesional, desarrollamos un pipeline de datos curado que garantiza diversidad y calidad, y establecemos un benchmark integral para evaluación sistemática. Los experimentos demuestran que SCAIL alcanza un rendimiento de vanguardia y avanza la animación de personajes hacia la fiabilidad y realismo de nivel profesional.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.
PDF172December 9, 2025