ChatPaper.aiChatPaper

SCAIL: Rumo à Animação de Personagens de Nível de Estúdio via Aprendizado em Contexto de Representações de Pose 3D-Consistentes

SCAIL: Towards Studio-Grade Character Animation via In-Context Learning of 3D-Consistent Pose Representations

December 5, 2025
Autores: Wenhao Yan, Sheng Ye, Zhuoyi Yang, Jiayan Teng, ZhenHui Dong, Kairui Wen, Xiaotao Gu, Yong-Jin Liu, Jie Tang
cs.AI

Resumo

A obtenção de animação de personagens que atenda aos padrões de produção de nível de estúdio continua a ser um desafio, apesar dos progressos recentes. As abordagens existentes podem transferir o movimento de um vídeo de condução para uma imagem de referência, mas frequentemente falham em preservar a fidelidade estrutural e a consistência temporal em cenários complexos que envolvem movimentos intrincados e animações entre diferentes identidades. Neste trabalho, apresentamos o SCAIL (Studio-grade Character Animation via In-context Learning), uma estrutura concebida para enfrentar esses desafios através de duas inovações principais. Primeiro, propomos uma nova representação de pose 3D, fornecendo um sinal de movimento mais robusto e flexível. Segundo, introduzimos um mecanismo de injeção de pose de contexto completo dentro de uma arquitetura de difusão-transformer, permitindo um raciocínio espaço-temporal eficaz sobre sequências de movimento completas. Para alinhar com os requisitos de nível de estúdio, desenvolvemos um pipeline de dados curado que garante diversidade e qualidade, e estabelecemos um benchmark abrangente para avaliação sistemática. Os experimentos demonstram que o SCAIL atinge um desempenho de última geração e avança a animação de personagens em direção à confiabilidade e realismo de nível de estúdio.
English
Achieving character animation that meets studio-grade production standards remains challenging despite recent progress. Existing approaches can transfer motion from a driving video to a reference image, but often fail to preserve structural fidelity and temporal consistency in wild scenarios involving complex motion and cross-identity animations. In this work, we present SCAIL (Studio-grade Character Animation via In-context Learning), a framework designed to address these challenges from two key innovations. First, we propose a novel 3D pose representation, providing a more robust and flexible motion signal. Second, we introduce a full-context pose injection mechanism within a diffusion-transformer architecture, enabling effective spatio-temporal reasoning over full motion sequences. To align with studio-level requirements, we develop a curated data pipeline ensuring both diversity and quality, and establish a comprehensive benchmark for systematic evaluation. Experiments show that SCAIL achieves state-of-the-art performance and advances character animation toward studio-grade reliability and realism.
PDF202February 27, 2026