Pippo: Umani Multivista ad Alta Risoluzione da un'Immagine Singola
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Autori: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Abstract
Presentiamo Pippo, un modello generativo in grado di produrre video dettagliati a risoluzione 1K di una persona a partire da una singola foto scattata casualmente. Pippo è un trasformatore a diffusione multi-vista e non richiede input aggiuntivi, come ad esempio un modello parametrico adattato o parametri della fotocamera dell'immagine in ingresso. Pre-alleniamo Pippo su 3 miliardi di immagini umane senza didascalie e conduciamo un training multi-vista durante e dopo il pre-allenamento su immagini di persone catturate in studio. Durante il training, per assimilare rapidamente il dataset di studio, eliminiamo il rumore di diverse (fino a 48) viste a bassa risoluzione e codifichiamo grossolanamente le telecamere di destinazione utilizzando un MLP superficiale. Durante il post-training, eliminiamo il rumore di meno viste ad alta risoluzione e utilizziamo controlli allineati ai pixel (ad es. ancoraggi spaziali e raggi di Plücker) per consentire generazioni coerenti in 3D. Durante l'inferenza, proponiamo una tecnica di bias dell'attenzione che consente a Pippo di generare contemporaneamente più di 5 volte le viste rispetto a quelle viste durante il training. Infine, introduciamo anche una metrica migliorata per valutare la coerenza in 3D delle generazioni multi-vista e dimostriamo che Pippo supera i lavori esistenti sulla generazione multi-vista di persone da un'unica immagine.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary