Pippo: 単一画像からの高解像度マルチビューヒューマン
Pippo: High-Resolution Multi-View Humans from a Single Image
February 11, 2025
著者: Yash Kant, Ethan Weber, Jin Kyu Kim, Rawal Khirodkar, Su Zhaoen, Julieta Martinez, Igor Gilitschenski, Shunsuke Saito, Timur Bagautdinov
cs.AI
要旨
私たちは、1 枚のカジュアルにクリックされた写真から人物の 1K 解像度の密なターンアラウンド動画を生成できる生成モデル Pippo を提案します。Pippo はマルチビュー拡散トランスフォーマーであり、追加の入力(例:適合したパラメトリックモデルや入力画像のカメラパラメータ)は必要ありません。Pippo を 3B 人物画像(キャプションなし)で事前学習し、スタジオで撮影された人物に対してミッドトレーニングとポストトレーニングを行います。ミッドトレーニング中には、スタジオデータセットを素早く取り込むために、低解像度でいくつかの(最大 48 個)ビューをノイズ除去し、目標カメラを浅い MLP を使用して粗くエンコードします。ポストトレーニング中には、高解像度でより少ないビューをノイズ除去し、ピクセルに整列したコントロール(例:空間アンカーおよびプラッカー光線)を使用して 3D 一貫性のある生成を可能にします。推論時には、Pippo がトレーニング中に見られるビューの 5 倍以上を同時に生成できるようにする注意バイアス技術を提案します。最後に、単一画像からのマルチビュー人物生成において Pippo が既存の研究を上回ることを示す改良されたメトリックを導入し、マルチビュー生成の 3D 一貫性を評価します。
English
We present Pippo, a generative model capable of producing 1K resolution dense
turnaround videos of a person from a single casually clicked photo. Pippo is a
multi-view diffusion transformer and does not require any additional inputs -
e.g., a fitted parametric model or camera parameters of the input image. We
pre-train Pippo on 3B human images without captions, and conduct multi-view
mid-training and post-training on studio captured humans. During mid-training,
to quickly absorb the studio dataset, we denoise several (up to 48) views at
low-resolution, and encode target cameras coarsely using a shallow MLP. During
post-training, we denoise fewer views at high-resolution and use pixel-aligned
controls (e.g., Spatial anchor and Plucker rays) to enable 3D consistent
generations. At inference, we propose an attention biasing technique that
allows Pippo to simultaneously generate greater than 5 times as many views as
seen during training. Finally, we also introduce an improved metric to evaluate
3D consistency of multi-view generations, and show that Pippo outperforms
existing works on multi-view human generation from a single image.Summary
AI-Generated Summary