DiffProxy: Menselijk Lichaamsvormherstel via Multi-View met Diffusie-gegenereerde Dichte Proxies
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
Auteurs: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
Samenvatting
De reconstructie van menselijke mesh-modellen uit beelden met meerdere gezichtspunten kampt met een fundamentele uitdaging: real-world datasets bevatten onvolmaakte grondwaarheid-annotaties die de training van modellen beïnvloeden, terwijl synthetische data met precieze supervisie lijdt onder een domeinkloof. In dit artikel stellen we DiffProxy voor, een nieuw raamwerk dat consistente menselijke proxies voor mesh-reconstructie genereert vanuit meerdere gezichtspunten. De kern van DiffProxy is het benutten van op diffusie gebaseerde generatieve prior kennis om de synthetische training en generalisatie naar de echte wereld te overbruggen. De belangrijkste innovaties omvatten: (1) een multi-conditioneel mechanisme voor het genereren van multi-view consistente, pixel-uitgelijnde menselijke proxies; (2) een handverfijningsmodule die flexibele visuele prompts integreert om lokale details te verbeteren; en (3) een onzekerheidsbewuste schalingsmethode tijdens testtijd die de robuustheid voor uitdagende gevallen tijdens optimalisatie vergroot. Deze ontwerpen zorgen ervoor dat het mesh-reconstructieproces effectief profiteert van de precieze synthetische grondwaarheid en de generatieve voordelen van de op diffusie gebaseerde pijplijn. Volledig getraind op synthetische data behaalt DiffProxy state-of-the-art prestaties op vijf real-world benchmarks, wat een sterke zero-shot generalisatie aantoont, vooral in uitdagende scenario's met occlusies en gedeeltelijke aanzichten. Projectpagina: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html