Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Umano con Prior Generativo
Controllable Human-centric Keyframe Interpolation with Generative Prior
June 3, 2025
Autori: Zujin Guo, Size Wu, Zhongang Cai, Wei Li, Chen Change Loy
cs.AI
Abstract
I metodi di interpolazione esistenti utilizzano prior di diffusione video pre-addestrate per generare fotogrammi intermedi tra fotogrammi chiave campionati in modo sparso. In assenza di una guida geometrica 3D, questi metodi faticano a produrre risultati plausibili per movimenti umani complessi e articolati e offrono un controllo limitato sulle dinamiche sintetizzate. In questo articolo, introduciamo PoseFuse3D Keyframe Interpolator (PoseFuse3D-KI), un nuovo framework che integra segnali di guida umana 3D nel processo di diffusione per l'Interpolazione Controllabile di Fotogrammi Chiave Centrata sull'Uomo (CHKI). Per fornire ricchi indizi spaziali e strutturali per l'interpolazione, il nostro PoseFuse3D, un modello di controllo informato in 3D, presenta un nuovo codificatore SMPL-X che trasforma la geometria e la forma 3D nello spazio di condizionamento latente 2D, insieme a una rete di fusione che integra questi indizi 3D con incorporamenti di pose 2D. Per la valutazione, abbiamo costruito CHKI-Video, un nuovo dataset annotato con pose 2D e parametri SMPL-X 3D. Mostriamo che PoseFuse3D-KI supera costantemente i baseline più avanzati su CHKI-Video, ottenendo un miglioramento del 9% in PSNR e una riduzione del 38% in LPIPS. Le ablazioni complete dimostrano che il nostro modello PoseFuse3D migliora la fedeltà dell'interpolazione.
English
Existing interpolation methods use pre-trained video diffusion priors to
generate intermediate frames between sparsely sampled keyframes. In the absence
of 3D geometric guidance, these methods struggle to produce plausible results
for complex, articulated human motions and offer limited control over the
synthesized dynamics. In this paper, we introduce PoseFuse3D Keyframe
Interpolator (PoseFuse3D-KI), a novel framework that integrates 3D human
guidance signals into the diffusion process for Controllable Human-centric
Keyframe Interpolation (CHKI). To provide rich spatial and structural cues for
interpolation, our PoseFuse3D, a 3D-informed control model, features a novel
SMPL-X encoder that transforms 3D geometry and shape into the 2D latent
conditioning space, alongside a fusion network that integrates these 3D cues
with 2D pose embeddings. For evaluation, we build CHKI-Video, a new dataset
annotated with both 2D poses and 3D SMPL-X parameters. We show that
PoseFuse3D-KI consistently outperforms state-of-the-art baselines on
CHKI-Video, achieving a 9% improvement in PSNR and a 38% reduction in LPIPS.
Comprehensive ablations demonstrate that our PoseFuse3D model improves
interpolation fidelity.