Steuerbare menschzentrierte Keyframe-Interpolation mit generativem Prior

papers.abstract

Bestehende Interpolationsmethoden verwenden vortrainierte Video-Diffusions-Priors, um Zwischenbilder zwischen spärlich abgetasteten Keyframes zu generieren. Ohne 3D-geometrische Anleitung haben diese Methoden Schwierigkeiten, plausible Ergebnisse für komplexe, artikulierte menschliche Bewegungen zu erzeugen, und bieten nur begrenzte Kontrolle über die synthetisierten Dynamiken. In diesem Artikel stellen wir den PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI) vor, ein neuartiges Framework, das 3D-menschliche Führungssignale in den Diffusionsprozess für eine kontrollierbare, menschzentrierte Keyframe-Interpolation (CHKI) integriert. Um reichhaltige räumliche und strukturelle Hinweise für die Interpolation zu liefern, verfügt unser PoseFuse3D, ein 3D-informiertes Kontrollmodell, über einen neuartigen SMPL-X-Encoder, der 3D-Geometrie und -Form in den 2D-latenten Konditionierungsraum transformiert, sowie über ein Fusionsnetzwerk, das diese 3D-Hinweise mit 2D-Pose-Embeddings integriert. Zur Bewertung haben wir CHKI-Video, einen neuen Datensatz, der sowohl mit 2D-Posen als auch mit 3D-SMPL-X-Parametern annotiert ist, erstellt. Wir zeigen, dass PoseFuse3D-KI auf CHKI-Video durchweg state-of-the-art Baselines übertrifft und eine Verbesserung von 9 % in PSNR sowie eine Reduktion von 38 % in LPIPS erreicht. Umfassende Ablationen demonstrieren, dass unser PoseFuse3D-Modell die Interpolationsgenauigkeit verbessert.

English

Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.

Steuerbare menschzentrierte Keyframe-Interpolation mit generativem Prior

Controllable Human-centric Keyframe Interpolation with Generative Prior

papers.abstract

Support