ChatPaper.aiChatPaper

Pippo: Hoogwaardige multi-view mensen met hoge resolutie vanuit één afbeelding

Pippo: High-Resolution Multi-View Humans from a Single Image

February 11, 2025
Auteurs: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI

Samenvatting

We presenteren Pippo, een generatief model dat in staat is om dichtbevolkte draaiende video's van een persoon met een resolutie van 1K te produceren vanuit een enkele informeel genomen foto. Pippo is een multi-view diffusie transformer en vereist geen aanvullende invoer - bijvoorbeeld, een passend parametrisch model of cameraparameters van de invoerafbeelding. We pre-trainen Pippo op 3 miljard menselijke afbeeldingen zonder bijschriften, en voeren multi-view training in het midden en na de training uit op in de studio vastgelegde mensen. Tijdens de training in het midden, om snel de studio dataset op te nemen, denoisen we verschillende (tot 48) weergaven op lage resolutie en coderen we doelcamera's grof met behulp van een ondiepe MLP. Tijdens de post-training denoisen we minder weergaven op hoge resolutie en gebruiken we pixel-uitgelijnde controles (bijv. Ruimtelijke anker en Plucker-stralen) om 3D consistente generaties mogelijk te maken. Bij inferentie stellen we een aandachtsbiasingtechniek voor die Pippo in staat stelt om tegelijkertijd meer dan 5 keer zoveel weergaven te genereren als tijdens de training gezien. Tot slot introduceren we ook een verbeterde metriek om de 3D consistentie van multi-view generaties te evalueren, en tonen aan dat Pippo beter presteert dan bestaande werken op het gebied van multi-view mensengeneratie vanuit een enkele afbeelding.
English
We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.
PDF112February 12, 2025