Pippo: Многозрительные человекоподобные изображения высокого разрешения из одного изображения
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
Авторы: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
Аннотация
Мы представляем Pippo, генеративную модель, способную создавать видео с плотным оборотом разрешением 1K человека на основе одного случайно сделанного фото. Pippo - это многообзорный диффузионный трансформер, который не требует дополнительных входных данных, например, подгоняемой параметрической модели или параметров камеры входного изображения. Мы предварительно обучаем Pippo на 3 миллиардах изображений людей без подписей и проводим многообзорное обучение в середине и после обучения на людях, сфотографированных в студии. Во время обучения в середине, чтобы быстро усвоить данные из студии, мы уменьшаем шум нескольких (до 48) видов с низким разрешением и грубо кодируем целевые камеры, используя неглубокую MLP. Во время пост-обучения мы уменьшаем шум меньшего количества видов с высоким разрешением и используем управление, выровненное по пикселям (например, пространственный якорь и лучи Плюккера), чтобы обеспечить 3D-согласованные генерации. На этапе вывода мы предлагаем технику смещения внимания, позволяющую Pippo одновременно генерировать более чем в 5 раз больше видов, чем видел во время обучения. Наконец, мы также представляем улучшенную метрику для оценки 3D-согласованности многообзорных генераций и показываем, что Pippo превосходит существующие работы по многообзорной генерации человека на основе одного изображения.
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary