Beheersbare mensgerichte keyframe-interpolatie met generatieve prior
Controllable Human-centric Keyframe Interpolation with Generative Prior
June 3, 2025
Auteurs: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI
Samenvatting
Bestaande interpolatiemethoden gebruiken vooraf getrainde video-diffusiepriors om tussenliggende frames te genereren tussen spaarzaam bemonsterde keyframes. Bij afwezigheid van 3D-geometrische begeleiding hebben deze methoden moeite om geloofwaardige resultaten te produceren voor complexe, gearticuleerde menselijke bewegingen en bieden ze beperkte controle over de gesynthetiseerde dynamiek. In dit artikel introduceren we de PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), een nieuw raamwerk dat 3D-menselijke begeleidingssignalen integreert in het diffusieproces voor Controleerbare Mensgerichte Keyframe Interpolatie (CHKI). Om rijke ruimtelijke en structurele aanwijzingen te bieden voor interpolatie, beschikt onze PoseFuse3D, een 3D-geïnformeerd controlemodel, over een nieuwe SMPL-X-encoder die 3D-geometrie en -vorm omzet in de 2D latente conditioneringsruimte, naast een fusienetwerk dat deze 3D-aanwijzingen integreert met 2D-pose-embeddings. Voor evaluatie hebben we CHKI-Video gebouwd, een nieuwe dataset geannoteerd met zowel 2D-poses als 3D SMPL-X-parameters. We laten zien dat PoseFuse3D-KI consistent state-of-the-art baselines overtreft op CHKI-Video, met een verbetering van 9% in PSNR en een reductie van 38% in LPIPS. Uitgebreide ablatie-onderzoeken tonen aan dat ons PoseFuse3D-model de interpolatiefideliteit verbetert.
English
Existing interpolation methods use pre-trained video diffusion priors to
generate intermediate frames between sparsely sampled keyframes. In the absence
of 3D geometric guidance, these methods struggle to produce plausible results
for complex, articulated human motions and offer limited control over the
synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe
Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human
guidance signals into the diffusion process for Controllable Human-centric
Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for
interpolation, our PoseFuse3D, a 3D-informed control model, features a novel
SMPL-X encoder that transforms 3D geometry and shape into the 2D latent
conditioning space, alongside a fusion network that integrates these 3D cues
with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset
annotated with both 2D poses and 3D SMPL-X parameters. We show that
PoseFuse3D-KI consistently outperforms state-of-the-art baselines on
CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS.
Comprehensive ablations demonstrate that our PoseFuse3D model improves
interpolation fidelity.