HumanDreamer-X: Фотореалистичная реконструкция аватаров человека по одному изображению с использованием восстановления на основе гауссовых распределений

Аннотация

Реконструкция человека по одному изображению имеет ключевое значение для приложений цифрового моделирования человека, но остается крайне сложной задачей. Современные подходы используют генеративные модели для синтеза изображений с нескольких ракурсов с последующей 3D-реконструкцией и анимацией. Однако прямое генерирование нескольких видов из одного изображения человека страдает от геометрических несоответствий, что приводит к таким проблемам, как фрагментированные или размытые конечности в реконструированных моделях. Для преодоления этих ограничений мы представляем HumanDreamer-X — новую структуру, которая объединяет генерацию и реконструкцию человека с нескольких ракурсов в единый конвейер, что значительно повышает геометрическую согласованность и визуальную точность реконструированных 3D-моделей. В этой структуре 3D Gaussian Splatting используется как явное 3D-представление для обеспечения начальной геометрии и приоритета внешнего вида. На основе этого обучается HumanFixer, который восстанавливает рендеры 3DGS, гарантируя фотореалистичные результаты. Кроме того, мы исследуем внутренние проблемы, связанные с механизмами внимания в генерации человека с нескольких ракурсов, и предлагаем стратегию модуляции внимания, которая эффективно улучшает геометрические детали и согласованность идентичности между видами. Экспериментальные результаты показывают, что наш подход значительно улучшает метрики качества PSNR для генерации и реконструкции на 16,45% и 12,65% соответственно, достигая PSNR до 25,62 дБ, а также демонстрирует способность к обобщению на данных из реального мира и применимость к различным базовым моделям реконструкции человека.

English

Single-image human reconstruction is vital for digital human modeling applications but remains an extremely challenging task. Current approaches rely on generative models to synthesize multi-view images for subsequent 3D reconstruction and animation. However, directly generating multiple views from a single human image suffers from geometric inconsistencies, resulting in issues like fragmented or blurred limbs in the reconstructed models. To tackle these limitations, we introduce HumanDreamer-X, a novel framework that integrates multi-view human generation and reconstruction into a unified pipeline, which significantly enhances the geometric consistency and visual fidelity of the reconstructed 3D models. In this framework, 3D Gaussian Splatting serves as an explicit 3D representation to provide initial geometry and appearance priority. Building upon this foundation, HumanFixer is trained to restore 3DGS renderings, which guarantee photorealistic results. Furthermore, we delve into the inherent challenges associated with attention mechanisms in multi-view human generation, and propose an attention modulation strategy that effectively enhances geometric details identity consistency across multi-view. Experimental results demonstrate that our approach markedly improves generation and reconstruction PSNR quality metrics by 16.45% and 12.65%, respectively, achieving a PSNR of up to 25.62 dB, while also showing generalization capabilities on in-the-wild data and applicability to various human reconstruction backbone models.

HumanDreamer-X: Фотореалистичная реконструкция аватаров человека по одному изображению с использованием восстановления на основе гауссовых распределений

HumanDreamer-X: Photorealistic Single-image Human Avatars Reconstruction via Gaussian Restoration

Аннотация

Support