Pippo : Humains multi-vues haute résolution à partir d'une seule image

papers.abstract

Nous présentons Pippo, un modèle génératif capable de produire des vidéos détaillées en résolution 1K d'une personne à partir d'une simple photo prise de manière informelle. Pippo est un transformateur de diffusion multi-vue et ne nécessite aucun input supplémentaire - par exemple, un modèle paramétrique ajusté ou des paramètres de caméra de l'image d'entrée. Nous pré-entraînons Pippo sur 3 milliards d'images humaines sans légendes, et réalisons un entraînement intermédiaire et post-entraînement multi-vue sur des humains capturés en studio. Pendant l'entraînement intermédiaire, pour absorber rapidement l'ensemble de données du studio, nous débruitons plusieurs vues (jusqu'à 48) en basse résolution, et encodons grossièrement les caméras cibles à l'aide d'un MLP peu profond. Lors du post-entraînement, nous débruitons moins de vues en haute résolution et utilisons des contrôles alignés sur les pixels (par exemple, ancrage spatial et rayons de Plücker) pour permettre des générations 3D cohérentes. À l'inférence, nous proposons une technique de biais d'attention qui permet à Pippo de générer simultanément plus de 5 fois plus de vues que celles vues pendant l'entraînement. Enfin, nous introduisons également une métrique améliorée pour évaluer la cohérence 3D des générations multi-vues, et montrons que Pippo surpasse les travaux existants sur la génération humaine multi-vues à partir d'une seule image.

English

We present Pippo, a generative model capable of producing 1K resolution dense turnaround videos of a person from a single casually clicked photo. Pippo is a multi-view diffusion transformer and does not require any additional inputs - e.g., a fitted parametric model or camera parameters of the input image. We pre-train Pippo on 3B human images without captions, and conduct multi-view mid-training and post-training on studio captured humans. During mid-training, to quickly absorb the studio dataset, we denoise several (up to 48) views at low-resolution, and encode target cameras coarsely using a shallow MLP. During post-training, we denoise fewer views at high-resolution and use pixel-aligned controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent generations. At inference, we propose an attention biasing technique that allows Pippo to simultaneously generate greater than 5 times as many views as seen during training. Finally, we also introduce an improved metric to evaluate 3D consistency of multi-view generations, and show that Pippo outperforms existing works on multi-view human generation from a single image.

Pippo : Humains multi-vues haute résolution à partir d'une seule image

Pippo: High-Resolution Multi-View Humans from a Single Image

papers.abstract

Support