Interpolación Controlable de Fotogramas Clave Centrada en Humanos con Prior Generativo
Controllable Human-centric Keyframe Interpolation with Generative Prior
June 3, 2025
Autores: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI
Resumen
Los métodos de interpolación existentes utilizan priores de difusión de video preentrenados para generar fotogramas intermedios entre fotogramas clave muestreados de manera dispersa. En ausencia de guía geométrica 3D, estos métodos tienen dificultades para producir resultados plausibles en movimientos humanos complejos y articulados, y ofrecen un control limitado sobre la dinámica sintetizada. En este artículo, presentamos PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un marco novedoso que integra señales de guía humana 3D en el proceso de difusión para la Interpolación de Fotogramas Clave Centrada en Humanos Controlable (CHKI). Para proporcionar pistas espaciales y estructurales ricas para la interpolación, nuestro PoseFuse3D, un modelo de control informado en 3D, incluye un codificador SMPL-X novedoso que transforma la geometría y la forma 3D en el espacio de condicionamiento latente 2D, junto con una red de fusión que integra estas pistas 3D con incrustaciones de pose 2D. Para la evaluación, construimos CHKI-Video, un nuevo conjunto de datos anotado con poses 2D y parámetros SMPL-X 3D. Demostramos que PoseFuse3D-KI supera consistentemente los métodos de referencia más avanzados en CHKI-Video, logrando una mejora del 9% en PSNR y una reducción del 38% en LPIPS. Las ablaciones exhaustivas demuestran que nuestro modelo PoseFuse3D mejora la fidelidad de la interpolación.
English
Existing interpolation methods use pre-trained video diffusion priors to
generate intermediate frames between sparsely sampled keyframes. In the absence
of 3D geometric guidance, these methods struggle to produce plausible results
for complex, articulated human motions and offer limited control over the
synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe
Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human
guidance signals into the diffusion process for Controllable Human-centric
Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for
interpolation, our PoseFuse3D, a 3D-informed control model, features a novel
SMPL-X encoder that transforms 3D geometry and shape into the 2D latent
conditioning space, alongside a fusion network that integrates these 3D cues
with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset
annotated with both 2D poses and 3D SMPL-X parameters. We show that
PoseFuse3D-KI consistently outperforms state-of-the-art baselines on
CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS.
Comprehensive ablations demonstrate that our PoseFuse3D model improves
interpolation fidelity.