DiffProxy: Восстановление полигональной сетки человека по нескольким видам с использованием плотных прокси-объектов, генерируемых диффузионными моделями
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
Авторы: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
Аннотация
Восстановление трехмерной сетки человека из многовидовых изображений сталкивается с фундаментальной проблемой: реальные наборы данных содержат неидеальные эталонные разметки, которые вносят смещение в обучение моделей, в то время как синтетические данные с точными разметками страдают от междоменного разрыва. В данной статье мы предлагаем DiffProxy — новую архитектуру, которая генерирует согласованные по множеству viewpoints прокси-модели человека для восстановления сетки. Ключевая идея DiffProxy заключается в использовании генеративных априорных знаний на основе диффузионных моделей для преодоления разрыва между синтетическим обучением и обобщением на реальные данные. Основные инновации включают: (1) механизм многокритериального кондиционирования для генерации согласованных по видам и выровненных по пикселям прокси-моделей человека; (2) модуль refinement кистей, использующий гибкие визуальные подсказки для улучшения локальных деталей; и (3) метод масштабирования на этапе тестирования с учетом неопределенности, повышающий устойчивость к сложным случаям в процессе оптимизации. Данные решения обеспечивают эффективное использование преимуществ точных синтетических разметок и генеративных возможностей диффузионного пайплайна в процессе восстановления сетки. Обученная исключительно на синтетических данных, DiffProxy демонстрирует наилучшие результаты на пяти реальных бенчмарках, показывая высокую zero-shot обобщающую способность, особенно в сложных сценариях с окклюзиями и частичными обзорами. Страница проекта: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html