ChatPaper.aiChatPaper

DiffProxy: Recuperación de Mallas Humanas Multi-Vista mediante Proxies Densos Generados por Difusión

DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies

January 5, 2026
Autores: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI

Resumen

La recuperación de mallas humanas a partir de imágenes multivista enfrenta un desafío fundamental: los conjuntos de datos del mundo real contienen anotaciones de ground-truth imperfectas que sesgan el entrenamiento de los modelos, mientras que los datos sintéticos con supervisión precisa sufren de una brecha de dominio. En este artículo, proponemos DiffProxy, un marco novedoso que genera proxies humanos consistentes en multivista para la recuperación de mallas. El elemento central de DiffProxy es aprovechar los priores generativos basados en difusión para tender un puente entre el entrenamiento sintético y la generalización en el mundo real. Sus innovaciones clave incluyen: (1) un mecanismo multi-condicional para generar proxies humanos consistentes en multivista y alineados a píxel; (2) un módulo de refinamiento de manos que incorpora prompts visuales flexibles para mejorar los detalles locales; y (3) un método de escalado en tiempo de prueba consciente de la incertidumbre que aumenta la robustez ante casos desafiantes durante la optimización. Estos diseños garantizan que el proceso de recuperación de mallas se beneficie efectivamente de la verdad de base sintética precisa y las ventajas generativas de la pipeline basada en difusión. Entrenado completamente con datos sintéticos, DiffProxy logra un rendimiento de vanguardia en cinco benchmarks del mundo real, demostrando una fuerte generalización zero-shot, particularmente en escenarios desafiantes con oclusiones y vistas parciales. Página del proyecto: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html
PDF41January 7, 2026