Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Umano con Prior Generativo

Abstract

I metodi di interpolazione esistenti utilizzano prior di diffusione video pre-addestrate per generare fotogrammi intermedi tra fotogrammi chiave campionati in modo sparso. In assenza di una guida geometrica 3D, questi metodi faticano a produrre risultati plausibili per movimenti umani complessi e articolati e offrono un controllo limitato sulle dinamiche sintetizzate. In questo articolo, introduciamo PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un nuovo framework che integra segnali di guida umana 3D nel processo di diffusione per l'Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Uomo (CHKI). Per fornire ricchi indizi spaziali e strutturali per l'interpolazione, il nostro PoseFuse3D, un modello di controllo informato in 3D, presenta un nuovo codificatore SMPL-X che trasforma la geometria e la forma 3D nello spazio di condizionamento latente 2D, insieme a una rete di fusione che integra questi indizi 3D con incorporamenti di pose 2D. Per la valutazione, abbiamo costruito CHKI-Video, un nuovo dataset annotato con pose 2D e parametri SMPL-X 3D. Mostriamo che PoseFuse3D-KI supera costantemente i baseline più avanzati su CHKI-Video, ottenendo un miglioramento del 9% in PSNR e una riduzione del 38% in LPIPS. Le ablazioni complete dimostrano che il nostro modello PoseFuse3D migliora la fedeltà dell'interpolazione.

English

Existing interpolation methods use pre-trained video diffusion priors to generate intermediate frames between sparsely sampled keyframes. In the absence of 3D geometric guidance, these methods struggle to produce plausible results for complex, articulated human motions and offer limited control over the synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human guidance signals into the diffusion process for Controllable Human-centric Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for interpolation, our PoseFuse3D, a 3D-informed control model, features a novel SMPL-X encoder that transforms 3D geometry and shape into the 2D latent conditioning space, alongside a fusion network that integrates these 3D cues with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset annotated with both 2D poses and 3D SMPL-X parameters. We show that PoseFuse3D-KI consistently outperforms state-of-the-art baselines on CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS. Comprehensive ablations demonstrate that our PoseFuse3D model improves interpolation fidelity.

Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Umano con Prior Generativo

Controllable Human-centric Keyframe Interpolation with Generative Prior

Abstract

Support