Pippo: Humanos de Múltiples Vistas de Alta Resolución a partir de una Única Imagen
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Autores: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Resumen
Presentamos Pippo, un modelo generativo capaz de producir videos detallados de 1K de resolución de una persona a partir de una sola foto tomada casualmente. Pippo es un transformador de difusión multi-vista y no requiere de entradas adicionales, como un modelo paramétrico ajustado o parámetros de cámara de la imagen de entrada. Pre-entrenamos a Pippo en 3 mil millones de imágenes humanas sin subtítulos, y realizamos entrenamiento medio y posterior multi-vista en humanos capturados en estudio. Durante el entrenamiento medio, para absorber rápidamente el conjunto de datos de estudio, eliminamos el ruido de varias vistas (hasta 48) a baja resolución, y codificamos las cámaras objetivo de forma gruesa utilizando un MLP superficial. Durante el entrenamiento posterior, eliminamos el ruido de menos vistas a alta resolución y utilizamos controles alineados con píxeles (por ejemplo, ancla espacial y rayos de Plücker) para permitir generaciones consistentes en 3D. En la inferencia, proponemos una técnica de sesgo de atención que permite a Pippo generar simultáneamente más de 5 veces la cantidad de vistas vistas durante el entrenamiento. Finalmente, también introducimos una métrica mejorada para evaluar la consistencia en 3D de las generaciones multi-vista, y demostramos que Pippo supera a los trabajos existentes en la generación multi-vista de humanos a partir de una sola imagen.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary