Pippo: Umani Multivista ad Alta Risoluzione da un'Immagine Singola

Abstract

Presentiamo Pippo, un modello generativo in grado di produrre video dettagliati a risoluzione 1K di una persona a partire da una singola foto scattata casualmente. Pippo è un trasformatore a diffusione multi-vista e non richiede input aggiuntivi, come ad esempio un modello parametrico adattato o parametri della fotocamera dell'immagine in ingresso. Pre-alleniamo Pippo su 3 miliardi di immagini umane senza didascalie e conduciamo un training multi-vista durante e dopo il pre-allenamento su immagini di persone catturate in studio. Durante il training, per assimilare rapidamente il dataset di studio, eliminiamo il rumore di diverse (fino a 48) viste a bassa risoluzione e codifichiamo grossolanamente le telecamere di destinazione utilizzando un MLP superficiale. Durante il post-training, eliminiamo il rumore di meno viste ad alta risoluzione e utilizziamo controlli allineati ai pixel (ad es. ancoraggi spaziali e raggi di Plücker) per consentire generazioni coerenti in 3D. Durante l'inferenza, proponiamo una tecnica di bias dell'attenzione che consente a Pippo di generare contemporaneamente più di 5 volte le viste rispetto a quelle viste durante il training. Infine, introduciamo anche una metrica migliorata per valutare la coerenza in 3D delle generazioni multi-vista e dimostriamo che Pippo supera i lavori esistenti sulla generazione multi-vista di persone da un'unica immagine.

English

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

Pippo: Umani Multivista ad Alta Risoluzione da un'Immagine Singola

Pippo: High-Resolution Multi-View Humans from a Single Image

Abstract

Support