DiffProxy: Multi-View Human Mesh Reconstruction mittels diffusionsgenerierter dichter Proxies
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
papers.authors: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
papers.abstract
Die Wiederherstellung menschlicher Meshes aus Multi-View-Bildern steht vor einer grundlegenden Herausforderung: Reale Datensätze enthalten unvollkommene Ground-Truth-Annotationen, die das Training der Modelle verzerren, während synthetische Daten mit präziser Supervision unter einer Domänenlücke leiden. In diesem Artikel stellen wir DiffProxy vor, ein neuartiges Framework, das multi-view-konsistente menschliche Proxies für die Mesh-Rekonstruktion erzeugt. Kern von DiffProxy ist die Nutzung diffusionsbasierter generativer Priors, um das synthetische Training und die Generalisierung in der realen Welt zu überbrücken. Die zentralen Innovationen umfassen: (1) einen multi-konditionalen Mechanismus zur Erzeugung multi-view-konsistenter, pixelgenauer menschlicher Proxies; (2) ein Handverfeinerungsmodul, das flexible visuelle Prompts integriert, um lokale Details zu verbessern; und (3) eine unsicherheitsbewusste Skalierungsmethode zur Testzeit, die die Robustheit gegenüber anspruchsvollen Fällen während der Optimierung erhöht. Diese Designs stellen sicher, dass der Mesh-Rekonstruktionsprozess effektiv von der präzisen synthetischen Ground Truth und den generativen Vorteilen der diffusionsbasierten Pipeline profitiert. Vollständig auf synthetischen Daten trainiert, erzielt DiffProxy state-of-the-art Ergebnisse in fünf realen Benchmarks und demonstriert eine starke Zero-Shot-Generalisierung, insbesondere in anspruchsvollen Szenarien mit Okklusionen und Teilansichten. Projektseite: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html