ChatPaper.aiChatPaper

Pippo: Umani Multivista ad Alta Risoluzione da un'Immagine Singola

Pippo: High-Resolution Multi-View Humans from a Single Image

February 11, 2025
Autori: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI

Abstract

Presentiamo Pippo, un modello generativo in grado di produrre video dettagliati a risoluzione 1K di una persona a partire da una singola foto scattata casualmente. Pippo è un trasformatore a diffusione multi-vista e non richiede input aggiuntivi, come ad esempio un modello parametrico adattato o parametri della fotocamera dell'immagine in ingresso. Pre-alleniamo Pippo su 3 miliardi di immagini umane senza didascalie e conduciamo un training multi-vista durante e dopo il pre-allenamento su immagini di persone catturate in studio. Durante il training, per assimilare rapidamente il dataset di studio, eliminiamo il rumore di diverse (fino a 48) viste a bassa risoluzione e codifichiamo grossolanamente le telecamere di destinazione utilizzando un MLP superficiale. Durante il post-training, eliminiamo il rumore di meno viste ad alta risoluzione e utilizziamo controlli allineati ai pixel (ad es. ancoraggi spaziali e raggi di Plücker) per consentire generazioni coerenti in 3D. Durante l'inferenza, proponiamo una tecnica di bias dell'attenzione che consente a Pippo di generare contemporaneamente più di 5 volte le viste rispetto a quelle viste durante il training. Infine, introduciamo anche una metrica migliorata per valutare la coerenza in 3D delle generazioni multi-vista e dimostriamo che Pippo supera i lavori esistenti sulla generazione multi-vista di persone da un'unica immagine.
English
We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

Summary

AI-Generated Summary

PDF112February 12, 2025