ChatPaper.aiChatPaper

Interpolação Controlável de Keyframes Centrada no Humano com Prior Generativo

Controllable Human-centric Keyframe Interpolation with Generative Prior

June 3, 2025
Autores: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI

Resumo

Os métodos existentes de interpolação utilizam priors de difusão de vídeo pré-treinados para gerar quadros intermediários entre quadros-chave esparsamente amostrados. Na ausência de orientação geométrica 3D, esses métodos lutam para produzir resultados plausíveis para movimentos humanos complexos e articulados, oferecendo controle limitado sobre a dinâmica sintetizada. Neste artigo, apresentamos o PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), uma nova estrutura que integra sinais de orientação humana 3D no processo de difusão para Interpolação de Quadros-Chave Centrada no Humano e Controlável (CHKI). Para fornecer pistas espaciais e estruturais ricas para a interpolação, nosso PoseFuse3D, um modelo de controle informado por 3D, apresenta um novo codificador SMPL-X que transforma a geometria e a forma 3D no espaço de condicionamento latente 2D, juntamente com uma rede de fusão que integra essas pistas 3D com embeddings de pose 2D. Para avaliação, construímos o CHKI-Video, um novo conjunto de dados anotado com poses 2D e parâmetros SMPL-X 3D. Mostramos que o PoseFuse3D-KI supera consistentemente as baselines state-of-the-art no CHKI-Video, alcançando uma melhoria de 9% no PSNR e uma redução de 38% no LPIPS. Ablações abrangentes demonstram que nosso modelo PoseFuse3D melhora a fidelidade da interpolação.
English
Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.
PDF22June 4, 2025