Beheersbare mensgerichte keyframe-interpolatie met generatieve prior

Samenvatting

Bestaande interpolatiemethoden gebruiken vooraf getrainde video-diffusiepriors om tussenliggende frames te genereren tussen spaarzaam bemonsterde keyframes. Bij afwezigheid van 3D-geometrische begeleiding hebben deze methoden moeite om geloofwaardige resultaten te produceren voor complexe, gearticuleerde menselijke bewegingen en bieden ze beperkte controle over de gesynthetiseerde dynamiek. In dit artikel introduceren we de PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), een nieuw raamwerk dat 3D-menselijke begeleidingssignalen integreert in het diffusieproces voor Controleerbare Mensgerichte Keyframe Interpolatie (CHKI). Om rijke ruimtelijke en structurele aanwijzingen te bieden voor interpolatie, beschikt onze PoseFuse3D, een 3D-geïnformeerd controlemodel, over een nieuwe SMPL-X-encoder die 3D-geometrie en -vorm omzet in de 2D latente conditioneringsruimte, naast een fusienetwerk dat deze 3D-aanwijzingen integreert met 2D-pose-embeddings. Voor evaluatie hebben we CHKI-Video gebouwd, een nieuwe dataset geannoteerd met zowel 2D-poses als 3D SMPL-X-parameters. We laten zien dat PoseFuse3D-KI consistent state-of-the-art baselines overtreft op CHKI-Video, met een verbetering van 9% in PSNR en een reductie van 38% in LPIPS. Uitgebreide ablatie-onderzoeken tonen aan dat ons PoseFuse3D-model de interpolatiefideliteit verbetert.

English

Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.

Beheersbare mensgerichte keyframe-interpolatie met generatieve prior

Controllable Human-centric Keyframe Interpolation with Generative Prior

Samenvatting

Support