UP2You: Быстрое восстановление вашего образа из неограниченных коллекций фотографий
UP2You: Fast Reconstruction of Yourself from Unconstrained Photo Collections
September 29, 2025
Авторы: Zeyu Cai, Ziyang Li, Xiaoben Li, Boqian Li, Zeyu Wang, Zhenyu Zhang, Yuliang Xiu
cs.AI
Аннотация
Мы представляем UP2You — первое решение для восстановления высококачественных 3D-портретов в одежде из крайне неограниченных 2D-фотографий, сделанных в реальных условиях, которое не требует настройки. В отличие от предыдущих подходов, требующих "чистых" входных данных (например, изображений всего тела с минимальными окклюзиями или хорошо калиброванных снимков с разных ракурсов), UP2You напрямую обрабатывает необработанные, неструктурированные фотографии, которые могут значительно различаться по позе, ракурсу, кадрированию и окклюзиям. Вместо сжатия данных в токены для медленной онлайн-оптимизации текста в 3D, мы вводим парадигму коррекции данных, которая эффективно преобразует неограниченные входные данные в чистые, ортогональные изображения с нескольких ракурсов за один прямой проход за считанные секунды, упрощая 3D-реконструкцию. Основой UP2You является модуль агрегации признаков, коррелированных с позой (PCFA), который выборочно объединяет информацию из нескольких эталонных изображений относительно целевых поз, обеспечивая лучшее сохранение идентичности и почти постоянный объем памяти при увеличении числа наблюдений. Мы также представляем предиктор формы на основе многократных ссылок, использующий архитектуру Perceiver, что устраняет необходимость в предварительно захваченных шаблонах тела. Многочисленные эксперименты на данных 4D-Dress, PuzzleIOI и снимках в реальных условиях демонстрируют, что UP2You стабильно превосходит предыдущие методы как по геометрической точности (Chamfer-15%, P2S-18% на PuzzleIOI), так и по точности текстур (PSNR-21%, LPIPS-46% на 4D-Dress). UP2You эффективен (1,5 минуты на человека) и универсален (поддерживает произвольное управление позой и обучение без тренировки для 3D-виртуальной примерки нескольких предметов одежды), что делает его практичным для реальных сценариев, где люди снимаются случайно. Модели и код будут опубликованы для содействия будущим исследованиям в этой малоизученной области. Страница проекта: https://zcai0612.github.io/UP2You
English
We present UP2You, the first tuning-free solution for reconstructing
high-fidelity 3D clothed portraits from extremely unconstrained in-the-wild 2D
photos. Unlike previous approaches that require "clean" inputs (e.g., full-body
images with minimal occlusions, or well-calibrated cross-view captures), UP2You
directly processes raw, unstructured photographs, which may vary significantly
in pose, viewpoint, cropping, and occlusion. Instead of compressing data into
tokens for slow online text-to-3D optimization, we introduce a data rectifier
paradigm that efficiently converts unconstrained inputs into clean, orthogonal
multi-view images in a single forward pass within seconds, simplifying the 3D
reconstruction. Central to UP2You is a pose-correlated feature aggregation
module (PCFA), that selectively fuses information from multiple reference
images w.r.t. target poses, enabling better identity preservation and nearly
constant memory footprint, with more observations. We also introduce a
perceiver-based multi-reference shape predictor, removing the need for
pre-captured body templates. Extensive experiments on 4D-Dress, PuzzleIOI, and
in-the-wild captures demonstrate that UP2You consistently surpasses previous
methods in both geometric accuracy (Chamfer-15%, P2S-18% on PuzzleIOI) and
texture fidelity (PSNR-21%, LPIPS-46% on 4D-Dress). UP2You is efficient (1.5
minutes per person), and versatile (supports arbitrary pose control, and
training-free multi-garment 3D virtual try-on), making it practical for
real-world scenarios where humans are casually captured. Both models and code
will be released to facilitate future research on this underexplored task.
Project Page: https://zcai0612.github.io/UP2You