DiffProxy:拡散生成高密度プロキシによるマルチビューハイマン メッシュ回復
DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies
January 5, 2026
著者: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI
要旨
多視点画像からの人体メッシュ復元は、根本的な課題に直面している。現実世界のデータセットにはモデルの学習にバイアスをかける不完全な教師データが含まれる一方、精密な教師信号を持つ合成データはドメインギャップに悩まされる。本論文では、メッシュ復元のための多視点整合性を持つ人体プロキシを生成する新規フレームワーク「DiffProxy」を提案する。DiffProxyの中核は、拡散モデルに基づく生成的プリオールを活用し、合成データによる学習と実世界への一般化を橋渡しすることにある。主な革新点は以下の通りである:(1)多視点整合性がありピクセル対応した人体プロキシを生成する多条件制御メカニズム、(2)柔軟な視覚的プロンプトを組み込み局所的な詳細を強化する手部精細化モジュール、(3)最適化過程中の困難なケースに対するロバスト性を高める不確実性を考慮したテスト時スケーリング手法。これらの設計により、メッシュ復元プロセスは精密な合成教師データと拡散ベースパイプラインの生成的利点を効果的に活用できる。合成データのみで学習したDiffProxyは、5つの実世界ベンチマークでState-of-the-Artの性能を達成し、特に遮蔽や部分的可視性といった困難なシナリオにおいて強力なゼロショット一般化能力を示した。プロジェクトページ: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html