UP2You: Ricostruzione Rapida di Te Stesso da Raccolte di Foto Non Vincolate
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
September 29, 2025
Autori: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu
cs.AI
Abstract
Presentiamo UP2You, la prima soluzione senza necessità di tuning per la ricostruzione di ritratti 3D ad alta fedeltà di persone vestite a partire da foto 2D estremamente non vincolate scattate in ambienti reali. A differenza degli approcci precedenti che richiedono input "puliti" (ad esempio, immagini a figura intera con occlusioni minime o acquisizioni multi-vista ben calibrate), UP2You elabora direttamente fotografie grezze e non strutturate, che possono variare significativamente in termini di posa, punto di vista, ritaglio e occlusione. Invece di comprimere i dati in token per una lenta ottimizzazione online da testo a 3D, introduciamo un paradigma di rettifica dei dati che converte efficientemente input non vincolati in immagini multi-vista pulite e ortogonali in un singolo passaggio in avanti in pochi secondi, semplificando la ricostruzione 3D. Cuore di UP2You è un modulo di aggregazione delle feature correlato alla posa (PCFA), che fonde selettivamente le informazioni da più immagini di riferimento rispetto alle pose target, consentendo una migliore conservazione dell'identità e un footprint di memoria quasi costante, anche con più osservazioni. Introduciamo inoltre un predittore di forma multi-riferimento basato su Perceiver, eliminando la necessità di modelli corporei pre-acquisiti. Esperimenti estesi su 4D-Dress, PuzzleIOI e acquisizioni in ambienti reali dimostrano che UP2You supera costantemente i metodi precedenti sia in accuratezza geometrica (Chamfer-15%, P2S-18% su PuzzleIOI) che in fedeltà delle texture (PSNR-21%, LPIPS-46% su 4D-Dress). UP2You è efficiente (1,5 minuti per persona) e versatile (supporta il controllo arbitrario della posa e il virtual try-on 3D multi-capo senza addestramento), rendendolo pratico per scenari reali in cui le persone vengono catturate in modo casuale. Sia i modelli che il codice verranno rilasciati per facilitare future ricerche su questo compito poco esplorato. Pagina del progetto: https://zcai0612.github.io/UP2You
English
We present UP2You, the first tuning-free solution for reconstructing
high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D
photos. Unlike previous approaches that require "clean" inputs (e.g., full-body
images with minimal occlusions, or well-calibrated cross-view captures), UP2You
directly processes raw, unstructured photographs, which may vary significantly
in pose, viewpoint, cropping, and occlusion. Instead of compressing data into
tokens for slow online text-to-3D optimization, we introduce a data rectifier
paradigm that efficiently converts unconstrained inputs into clean, orthogonal
multi-view images in a single forward pass within seconds, simplifying the 3D
reconstruction. Central to UP2You is a pose-correlated feature aggregation
module (PCFA), that selectively fuses information from multiple reference
images w.r.t. target poses, enabling better identity preservation and nearly
constant memory footprint, with more observations. We also introduce a
perceiver-based multi-reference shape predictor, removing the need for
pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and
in-the-wild captures demonstrate that UP2You consistently surpasses previous
methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and
texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5
minutes per person), and versatile (supports arbitrary pose control, and
training-free multi-garment 3D virtual try-on), making it practical for
real-world scenarios where humans are casually captured. Both models and code
will be released to facilitate future research on this underexplored task.
Project Page: https://zcai0612.github.io/UP2You