UP2You: 制約のない写真コレクションからの高速な自己再構築
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
September 29, 2025
著者: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu
cs.AI
要旨
本研究では、極めて制約の少ない実世界の2D写真から高精細な3D着衣ポートレートを再構築する、初のチューニング不要なソリューション「UP2You」を提案します。従来の手法では「クリーン」な入力(例:遮蔽が最小限の全身画像、または適切にキャリブレーションされたクロスビューキャプチャ)が必要でしたが、UP2Youはポーズ、視点、クロッピング、遮蔽が大きく異なる可能性のある生の非構造化写真を直接処理します。データをトークンに圧縮して低速なオンラインのテキストから3Dへの最適化を行う代わりに、制約のない入力をクリーンな直交マルチビュー画像に効率的に変換するデータレクティファイアパラダイムを導入し、数秒以内の単一フォワードパスで3D再構築を簡素化します。UP2Youの中核となるのは、ポーズ相関特徴量集約モジュール(PCFA)であり、ターゲットポーズに関して複数の参照画像からの情報を選択的に融合することで、より優れた同一性の保持と、観測数が増えてもほぼ一定のメモリ使用量を実現します。また、事前にキャプチャされたボディテンプレートを必要としない、パーシバーベースのマルチリファレンス形状予測器を導入します。4D-Dress、PuzzleIOI、および実世界のキャプチャを用いた広範な実験により、UP2Youが幾何学的精度(PuzzleIOIでChamfer-15%、P2S-18%)とテクスチャ忠実度(4D-DressでPSNR-21%、LPIPS-46%)の両方において、従来の手法を一貫して上回ることが実証されました。UP2Youは効率的(1人あたり1.5分)で汎用性が高く(任意のポーズ制御をサポートし、トレーニング不要なマルチガーメント3D仮想試着が可能)、人間がカジュアルに撮影される実世界のシナリオに実用的です。今後の研究を促進するため、モデルとコードを公開します。プロジェクトページ:https://zcai0612.github.io/UP2You
English
We present UP2You, the first tuning-free solution for reconstructing
high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D
photos. Unlike previous approaches that require "clean" inputs (e.g., full-body
images with minimal occlusions, or well-calibrated cross-view captures), UP2You
directly processes raw, unstructured photographs, which may vary significantly
in pose, viewpoint, cropping, and occlusion. Instead of compressing data into
tokens for slow online text-to-3D optimization, we introduce a data rectifier
paradigm that efficiently converts unconstrained inputs into clean, orthogonal
multi-view images in a single forward pass within seconds, simplifying the 3D
reconstruction. Central to UP2You is a pose-correlated feature aggregation
module (PCFA), that selectively fuses information from multiple reference
images w.r.t. target poses, enabling better identity preservation and nearly
constant memory footprint, with more observations. We also introduce a
perceiver-based multi-reference shape predictor, removing the need for
pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and
in-the-wild captures demonstrate that UP2You consistently surpasses previous
methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and
texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5
minutes per person), and versatile (supports arbitrary pose control, and
training-free multi-garment 3D virtual try-on), making it practical for
real-world scenarios where humans are casually captured. Both models and code
will be released to facilitate future research on this underexplored task.
Project Page: https://zcai0612.github.io/UP2You