UP2You: Schnelle Rekonstruktion Ihrer selbst aus ungezwungenen Fotosammlungen
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
September 29, 2025
papers.authors: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu
cs.AI
papers.abstract
Wir präsentieren UP2You, die erste tuningfreie Lösung zur Rekonstruktion hochwertiger 3D-Porträts mit Kleidung aus extrem unstrukturierten 2D-Fotos in natürlichen Umgebungen. Im Gegensatz zu früheren Ansätzen, die „saubere“ Eingaben erfordern (z. B. Ganzkörperbilder mit minimalen Verdeckungen oder gut kalibrierte Aufnahmen aus verschiedenen Blickwinkeln), verarbeitet UP2You direkt rohe, unstrukturierte Fotografien, die sich erheblich in Pose, Blickwinkel, Zuschnitt und Verdeckung unterscheiden können. Anstatt Daten in Tokens zu komprimieren, um eine langsame Online-Text-zu-3D-Optimierung durchzuführen, führen wir ein Daten-Rectifier-Paradigma ein, das unstrukturierte Eingaben effizient in saubere, orthogonale Mehransichtsbilder in einem einzigen Vorwärtsdurchlauf innerhalb von Sekunden umwandelt und so die 3D-Rekonstruktion vereinfacht. Kernstück von UP2You ist ein pose-korreliertes Merkmalsaggregationsmodul (PCFA), das selektiv Informationen aus mehreren Referenzbildern in Bezug auf Zielposen fusioniert, wodurch eine bessere Identitätserhaltung und ein nahezu konstanter Speicherbedarf bei mehr Beobachtungen ermöglicht werden. Wir führen außerdem einen Perceiver-basierten Multi-Referenz-Formprädiktor ein, der den Bedarf an vorab erfassten Körpervorlagen eliminiert. Umfangreiche Experimente auf 4D-Dress, PuzzleIOI und in natürlichen Umgebungen aufgenommenen Daten zeigen, dass UP2You frühere Methoden sowohl in der geometrischen Genauigkeit (Chamfer-15 %, P2S-18 % auf PuzzleIOI) als auch in der Texturqualität (PSNR-21 %, LPIPS-46 % auf 4D-Dress) konsequent übertrifft. UP2You ist effizient (1,5 Minuten pro Person) und vielseitig (unterstützt beliebige Posesteuerung und trainingsfreies 3D-Virtual-Try-on mit mehreren Kleidungsstücken), was es für reale Szenarien praktikabel macht, in denen Menschen beiläufig aufgenommen werden. Sowohl Modelle als auch Code werden veröffentlicht, um zukünftige Forschungen zu dieser bisher wenig erforschten Aufgabe zu erleichtern. Projektseite: https://zcai0612.github.io/UP2You
English
We present UP2You, the first tuning-free solution for reconstructing
high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D
photos. Unlike previous approaches that require "clean" inputs (e.g., full-body
images with minimal occlusions, or well-calibrated cross-view captures), UP2You
directly processes raw, unstructured photographs, which may vary significantly
in pose, viewpoint, cropping, and occlusion. Instead of compressing data into
tokens for slow online text-to-3D optimization, we introduce a data rectifier
paradigm that efficiently converts unconstrained inputs into clean, orthogonal
multi-view images in a single forward pass within seconds, simplifying the 3D
reconstruction. Central to UP2You is a pose-correlated feature aggregation
module (PCFA), that selectively fuses information from multiple reference
images w.r.t. target poses, enabling better identity preservation and nearly
constant memory footprint, with more observations. We also introduce a
perceiver-based multi-reference shape predictor, removing the need for
pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and
in-the-wild captures demonstrate that UP2You consistently surpasses previous
methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and
texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5
minutes per person), and versatile (supports arbitrary pose control, and
training-free multi-garment 3D virtual try-on), making it practical for
real-world scenarios where humans are casually captured. Both models and code
will be released to facilitate future research on this underexplored task.
Project Page: https://zcai0612.github.io/UP2You