Pippo: Humanos de Alta Resolução em Múltiplas Visões a Partir de uma Única Imagem
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Autores: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Resumo
Apresentamos Pippo, um modelo generativo capaz de produzir vídeos de rotação densa em resolução 1K de uma pessoa a partir de uma única foto tirada casualmente. Pippo é um transformador de difusão multi-visão e não requer entradas adicionais — por exemplo, um modelo paramétrico ajustado ou parâmetros de câmera da imagem de entrada. Pré-treinamos Pippo em 3 bilhões de imagens humanas sem legendas e realizamos treinamentos intermediário e pós-treinamento em humanos capturados em estúdio. Durante o treinamento intermediário, para absorver rapidamente o conjunto de dados do estúdio, reduzimos o ruído de várias (até 48) visões em baixa resolução e codificamos as câmeras-alvo de forma grosseira usando uma MLP rasa. Durante o pós-treinamento, reduzimos o ruído de menos visões em alta resolução e utilizamos controles alinhados por pixel (por exemplo, âncora espacial e raios de Plucker) para permitir gerações 3D consistentes. Na inferência, propomos uma técnica de viés de atenção que permite ao Pippo gerar simultaneamente mais de 5 vezes o número de visões observadas durante o treinamento. Por fim, também introduzimos uma métrica aprimorada para avaliar a consistência 3D de gerações multi-visão e demonstramos que o Pippo supera os trabalhos existentes na geração de humanos multi-visão a partir de uma única imagem.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary