Pippo : Humains multi-vues haute résolution à partir d'une seule image
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Auteurs: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Résumé
Nous présentons Pippo, un modèle génératif capable de produire des vidéos détaillées en résolution 1K d'une personne à partir d'une simple photo prise de manière informelle. Pippo est un transformateur de diffusion multi-vue et ne nécessite aucun input supplémentaire - par exemple, un modèle paramétrique ajusté ou des paramètres de caméra de l'image d'entrée. Nous pré-entraînons Pippo sur 3 milliards d'images humaines sans légendes, et réalisons un entraînement intermédiaire et post-entraînement multi-vue sur des humains capturés en studio. Pendant l'entraînement intermédiaire, pour absorber rapidement l'ensemble de données du studio, nous débruitons plusieurs vues (jusqu'à 48) en basse résolution, et encodons grossièrement les caméras cibles à l'aide d'un MLP peu profond. Lors du post-entraînement, nous débruitons moins de vues en haute résolution et utilisons des contrôles alignés sur les pixels (par exemple, ancrage spatial et rayons de Plücker) pour permettre des générations 3D cohérentes. À l'inférence, nous proposons une technique de biais d'attention qui permet à Pippo de générer simultanément plus de 5 fois plus de vues que celles vues pendant l'entraînement. Enfin, nous introduisons également une métrique améliorée pour évaluer la cohérence 3D des générations multi-vues, et montrons que Pippo surpasse les travaux existants sur la génération humaine multi-vues à partir d'une seule image.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary