Steuerbare menschzentrierte Keyframe-Interpolation mit generativem Prior
Controllable Human-centric Keyframe Interpolation with Generative Prior
June 3, 2025
Autoren: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI
Zusammenfassung
Bestehende Interpolationsmethoden verwenden vortrainierte Video-Diffusions-Priors, um Zwischenbilder zwischen spärlich abgetasteten Keyframes zu generieren. Ohne 3D-geometrische Anleitung haben diese Methoden Schwierigkeiten, plausible Ergebnisse für komplexe, artikulierte menschliche Bewegungen zu erzeugen, und bieten nur begrenzte Kontrolle über die synthetisierten Dynamiken. In diesem Artikel stellen wir den PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI) vor, ein neuartiges Framework, das 3D-menschliche Führungssignale in den Diffusionsprozess für eine kontrollierbare, menschzentrierte Keyframe-Interpolation (CHKI) integriert. Um reichhaltige räumliche und strukturelle Hinweise für die Interpolation zu liefern, verfügt unser PoseFuse3D, ein 3D-informiertes Kontrollmodell, über einen neuartigen SMPL-X-Encoder, der 3D-Geometrie und -Form in den 2D-latenten Konditionierungsraum transformiert, sowie über ein Fusionsnetzwerk, das diese 3D-Hinweise mit 2D-Pose-Embeddings integriert. Zur Bewertung haben wir CHKI-Video, einen neuen Datensatz, der sowohl mit 2D-Posen als auch mit 3D-SMPL-X-Parametern annotiert ist, erstellt. Wir zeigen, dass PoseFuse3D-KI auf CHKI-Video durchweg state-of-the-art Baselines übertrifft und eine Verbesserung von 9 % in PSNR sowie eine Reduktion von 38 % in LPIPS erreicht. Umfassende Ablationen demonstrieren, dass unser PoseFuse3D-Modell die Interpolationsgenauigkeit verbessert.
English
Existing interpolation methods use pre-trained video diffusion priors to
generate intermediate frames between sparsely sampled keyframes. In the absence
of 3D geometric guidance, these methods struggle to produce plausible results
for complex, articulated human motions and offer limited control over the
synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe
Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human
guidance signals into the diffusion process for Controllable Human-centric
Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for
interpolation, our PoseFuse3D, a 3D-informed control model, features a novel
SMPL-X encoder that transforms 3D geometry and shape into the 2D latent
conditioning space, alongside a fusion network that integrates these 3D cues
with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset
annotated with both 2D poses and 3D SMPL-X parameters. We show that
PoseFuse3D-KI consistently outperforms state-of-the-art baselines on
CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS.
Comprehensive ablations demonstrate that our PoseFuse3D model improves
interpolation fidelity.