Interpolation contrôlée d'images clés centrée sur l'humain avec un a priori génératif
Controllable Human-centric Keyframe Interpolation with Generative Prior
June 3, 2025
Auteurs: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI
Résumé
Les méthodes d'interpolation existantes utilisent des modèles de diffusion vidéo pré-entraînés pour générer des images intermédiaires entre des images clés échantillonnées de manière éparse. En l'absence de guidage géométrique 3D, ces méthodes peinent à produire des résultats plausibles pour des mouvements humains complexes et articulés, et offrent un contrôle limité sur la dynamique synthétisée. Dans cet article, nous présentons PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un nouveau cadre qui intègre des signaux de guidage 3D humain dans le processus de diffusion pour une Interpolation d'Images Clés Centrée sur l'Humain et Contrôlable (CHKI). Pour fournir des indices spatiaux et structurels riches pour l'interpolation, notre PoseFuse3D, un modèle de contrôle informé en 3D, intègre un nouvel encodeur SMPL-X qui transforme la géométrie et la forme 3D en un espace de conditionnement latent 2D, ainsi qu'un réseau de fusion qui intègre ces indices 3D avec des embeddings de pose 2D. Pour l'évaluation, nous construisons CHKI-Video, un nouveau jeu de données annoté avec des poses 2D et des paramètres SMPL-X 3D. Nous montrons que PoseFuse3D-KI surpasse systématiquement les modèles de référence de pointe sur CHKI-Video, avec une amélioration de 9 % en PSNR et une réduction de 38 % en LPIPS. Des ablations approfondies démontrent que notre modèle PoseFuse3D améliore la fidélité de l'interpolation.
English
Existing interpolation methods use pre-trained video diffusion priors to
generate intermediate frames between sparsely sampled keyframes. In the absence
of 3D geometric guidance, these methods struggle to produce plausible results
for complex, articulated human motions and offer limited control over the
synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe
Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human
guidance signals into the diffusion process for Controllable Human-centric
Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for
interpolation, our PoseFuse3D, a 3D-informed control model, features a novel
SMPL-X encoder that transforms 3D geometry and shape into the 2D latent
conditioning space, alongside a fusion network that integrates these 3D cues
with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset
annotated with both 2D poses and 3D SMPL-X parameters. We show that
PoseFuse3D-KI consistently outperforms state-of-the-art baselines on
CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS.
Comprehensive ablations demonstrate that our PoseFuse3D model improves
interpolation fidelity.