DiffProxy: Ricostruzione di Mesh Umane Multi-Vista tramite Proxy Densi Generati con Diffusione

Abstract

La ricostruzione di mesh umane da immagini multi-vista affronta una sfida fondamentale: i dataset del mondo reale contengono annotazioni di ground truth imperfette che influenzano negativamente l'addestramento dei modelli, mentre i dati sintetici con supervisione precisa soffrono del divario di dominio. In questo articolo, proponiamo DiffProxy, un framework innovativo che genera proxy umani multi-vista consistenti per la ricostruzione di mesh. Elemento centrale di DiffProxy è lo sfruttamento di prior generative basate sulla diffusione per colmare il divario tra l'addestramento su dati sintetici e la generalizzazione nel mondo reale. Le sue innovazioni chiave includono: (1) un meccanismo multi-condizionale per generare proxy umani multi-vista consistenti e allineati a livello di pixel; (2) un modulo di raffinamento delle mani che incorpora prompt visivi flessibili per migliorare i dettagli locali; e (3) un metodo di scaling a tempo di test consapevole dell'incertezza che aumenta la robustezza nei casi complessi durante l'ottimizzazione. Questi design garantiscono che il processo di ricostruzione della mesh benefici efficacemente sia del ground truth sintetico preciso che dei vantaggi generativi della pipeline basata sulla diffusione. Addestrato interamente su dati sintetici, DiffProxy raggiunge prestazioni allo stato dell'arte su cinque benchmark del mondo reale, dimostrando una forte generalizzazione zero-shot, specialmente in scenari complessi con occlusioni e viste parziali. Pagina del progetto: https://wrk226.github.io/DiffProxy.html

English

Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html

DiffProxy: Ricostruzione di Mesh Umane Multi-Vista tramite Proxy Densi Generati con Diffusione

DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies

Abstract

Support