DiffProxy: Recuperação de Malha Corporal Humana com Múltiplas Visualizações via Proxies Densos Gerados por Difusão
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
Autores: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
Resumo
A recuperação de malhas humanas a partir de imagens multivista enfrenta um desafio fundamental: os conjuntos de dados do mundo real contêm anotações de ground-truth imperfeitas que enviesam o treinamento dos modelos, enquanto os dados sintéticos com supervisão precisa sofrem com o gap de domínio. Neste artigo, propomos o DiffProxy, uma nova estrutura que gera proxies humanos consistentes em multivista para recuperação de malhas. Central ao DiffProxy é a utilização de prioridades generativas baseadas em difusão para ligar o treinamento sintético e a generalização no mundo real. As suas principais inovações incluem: (1) um mecanismo multi-condicional para gerar proxies humanos consistentes em multivista e alinhados ao pixel; (2) um módulo de refinamento das mãos que incorpora prompts visuais flexíveis para melhorar os detalhes locais; e (3) um método de escalagem consciente da incerteza em tempo de teste que aumenta a robustez a casos desafiadores durante a otimização. Estes projetos garantem que o processo de recuperação da malha beneficie efetivamente do ground-truth sintético preciso e das vantagens generativas do pipeline baseado em difusão. Treinado inteiramente com dados sintéticos, o DiffProxy atinge desempenho state-of-the-art em cinco benchmarks do mundo real, demonstrando forte generalização zero-shot, particularmente em cenários desafiadores com oclusões e vistas parciais. Página do projeto: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html