DiffProxy : Reconstruction de maillage humain multi-vue via des proxys denses générés par diffusion
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
papers.authors: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
papers.abstract
La reconstruction de maillages humains à partir d'images multi-vues se heurte à un défi fondamental : les jeux de données réels contiennent des annotations au sol imparfaites qui biaisent l'entraînement des modèles, tandis que les données synthétiques avec supervision précise souffrent d'un écart de domaine. Dans cet article, nous proposons DiffProxy, une nouvelle architecture qui génère des proxys humains multi-vues cohérents pour la reconstruction de maillages. L'élément central de DiffProxy est l'exploitation de préalables génératifs basés sur la diffusion pour combler le fossé entre l'entraînement synthétique et la généralisation au monde réel. Ses innovations clés incluent : (1) un mécanisme multi-conditionnel pour générer des proxys humains cohérents multi-vues et alignés au pixel ; (2) un module de raffinement manuel incorporant des invites visuelles flexibles pour améliorer les détails locaux ; et (3) une méthode de mise à l'échelle en temps de test sensible à l'incertitude qui accroît la robustesse face aux cas difficiles lors de l'optimisation. Ces conceptions garantissent que le processus de reconstruction de maillages bénéficie efficacement de la vérité terrain synthétique précise et des avantages génératifs du pipeline basé sur la diffusion. Entièrement entraîné sur des données synthétiques, DiffProxy obtient des performances state-of-the-art sur cinq benchmarks du monde réel, démontrant une forte généralisation zero-shot, particulièrement dans les scénarios difficiles avec occlusions et vues partielles. Page du projet : https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html