HumanDreamer-X: Фотореалистичная реконструкция аватаров человека по одному изображению с использованием восстановления на основе гауссовых распределений
HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration
April 4, 2025
Авторы: Boyuan Wang, Runqi Ouyang, Xiaofeng Wang, Zheng Zhu, Guosheng Zhao, Chaojun Ni, Guan Huang, Lihong Liu, Xingang Wang
cs.AI
Аннотация
Реконструкция человека по одному изображению имеет ключевое значение для приложений цифрового моделирования человека, но остается крайне сложной задачей. Современные подходы используют генеративные модели для синтеза изображений с нескольких ракурсов с последующей 3D-реконструкцией и анимацией. Однако прямое генерирование нескольких видов из одного изображения человека страдает от геометрических несоответствий, что приводит к таким проблемам, как фрагментированные или размытые конечности в реконструированных моделях. Для преодоления этих ограничений мы представляем HumanDreamer-X — новую структуру, которая объединяет генерацию и реконструкцию человека с нескольких ракурсов в единый конвейер, что значительно повышает геометрическую согласованность и визуальную точность реконструированных 3D-моделей. В этой структуре 3D Gaussian Splatting используется как явное 3D-представление для обеспечения начальной геометрии и приоритета внешнего вида. На основе этого обучается HumanFixer, который восстанавливает рендеры 3DGS, гарантируя фотореалистичные результаты. Кроме того, мы исследуем внутренние проблемы, связанные с механизмами внимания в генерации человека с нескольких ракурсов, и предлагаем стратегию модуляции внимания, которая эффективно улучшает геометрические детали и согласованность идентичности между видами. Экспериментальные результаты показывают, что наш подход значительно улучшает метрики качества PSNR для генерации и реконструкции на 16,45% и 12,65% соответственно, достигая PSNR до 25,62 дБ, а также демонстрирует способность к обобщению на данных из реального мира и применимость к различным базовым моделям реконструкции человека.
English
Single-image human reconstruction is vital for digital human modeling
applications but remains an extremely challenging task. Current approaches rely
on generative models to synthesize multi-view images for subsequent 3D
reconstruction and animation. However, directly generating multiple views from
a single human image suffers from geometric inconsistencies, resulting in
issues like fragmented or blurred limbs in the reconstructed models. To tackle
these limitations, we introduce HumanDreamer-X, a novel framework that
integrates multi-view human generation and reconstruction into a unified
pipeline, which significantly enhances the geometric consistency and visual
fidelity of the reconstructed 3D models. In this framework, 3D Gaussian
Splatting serves as an explicit 3D representation to provide initial geometry
and appearance priority. Building upon this foundation, HumanFixer is
trained to restore 3DGS renderings, which guarantee photorealistic results.
Furthermore, we delve into the inherent challenges associated with attention
mechanisms in multi-view human generation, and propose an attention modulation
strategy that effectively enhances geometric details identity consistency
across multi-view. Experimental results demonstrate that our approach markedly
improves generation and reconstruction PSNR quality metrics by 16.45% and
12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing
generalization capabilities on in-the-wild data and applicability to various
human reconstruction backbone models.Summary
AI-Generated Summary