UP2You: Reconstrução Rápida de Você Mesmo a partir de Coleções de Fotos Não Restritas
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
September 29, 2025
Autores: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu
cs.AI
Resumo
Apresentamos o UP2You, a primeira solução sem necessidade de ajustes para reconstruir retratos 3D vestidos de alta fidelidade a partir de fotos 2D extremamente não restritas capturadas em ambientes reais. Diferente de abordagens anteriores que exigem entradas "limpas" (por exemplo, imagens de corpo inteiro com oclusões mínimas ou capturas calibradas de múltiplas visões), o UP2You processa diretamente fotografias brutas e não estruturadas, que podem variar significativamente em pose, ângulo de visão, recorte e oclusão. Em vez de comprimir dados em tokens para uma lenta otimização online de texto para 3D, introduzimos um paradigma de retificador de dados que converte eficientemente entradas não restritas em imagens multi-visão limpas e ortogonais em uma única passagem direta em questão de segundos, simplificando a reconstrução 3D. Central ao UP2You é um módulo de agregação de características correlacionadas à pose (PCFA), que seletivamente funde informações de múltiplas imagens de referência em relação às poses alvo, permitindo uma melhor preservação de identidade e uma pegada de memória quase constante, mesmo com mais observações. Também introduzimos um preditor de forma baseado em múltiplas referências com perceiver, eliminando a necessidade de modelos corporais pré-capturados. Experimentos extensivos no 4D-Dress, PuzzleIOI e capturas em ambientes reais demonstram que o UP2You consistentemente supera métodos anteriores tanto em precisão geométrica (Chamfer-15%, P2S-18% no PuzzleIOI) quanto em fidelidade de textura (PSNR-21%, LPIPS-46% no 4D-Dress). O UP2You é eficiente (1,5 minutos por pessoa) e versátil (suporta controle de pose arbitrário e experimentação virtual 3D de múltiplas roupas sem treinamento), tornando-o prático para cenários do mundo real onde humanos são capturados casualmente. Tanto os modelos quanto o código serão liberados para facilitar pesquisas futuras nesta tarefa pouco explorada. Página do Projeto: https://zcai0612.github.io/UP2You
English
We present UP2You, the first tuning-free solution for reconstructing
high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D
photos. Unlike previous approaches that require "clean" inputs (e.g., full-body
images with minimal occlusions, or well-calibrated cross-view captures), UP2You
directly processes raw, unstructured photographs, which may vary significantly
in pose, viewpoint, cropping, and occlusion. Instead of compressing data into
tokens for slow online text-to-3D optimization, we introduce a data rectifier
paradigm that efficiently converts unconstrained inputs into clean, orthogonal
multi-view images in a single forward pass within seconds, simplifying the 3D
reconstruction. Central to UP2You is a pose-correlated feature aggregation
module (PCFA), that selectively fuses information from multiple reference
images w.r.t. target poses, enabling better identity preservation and nearly
constant memory footprint, with more observations. We also introduce a
perceiver-based multi-reference shape predictor, removing the need for
pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and
in-the-wild captures demonstrate that UP2You consistently surpasses previous
methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and
texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5
minutes per person), and versatile (supports arbitrary pose control, and
training-free multi-garment 3D virtual try-on), making it practical for
real-world scenarios where humans are casually captured. Both models and code
will be released to facilitate future research on this underexplored task.
Project Page: https://zcai0612.github.io/UP2You