ChatPaper.aiChatPaper

DiffProxy: 확산 생성 밀집 프록시를 통한 다중 뷰 인간 메쉬 복원

DiffProxy: Multi-View Human Mesh Recovery via Diffusion-Generated Dense Proxies

January 5, 2026
저자: Renke Wang, Zhenyu Zhang, Ying Tai, Jian Yang
cs.AI

초록

다중 뷰 이미지로부터의 인간 메쉬 복원은 근본적인 과제에 직면해 있습니다: 실제 세계 데이터셋은 모델 학습에 편향을 일으키는 불완전한 실측 정답 주석을 포함하는 반면, 정밀한 감독이 제공되는 합성 데이터는 도메인 간 차이 문제를 안고 있습니다. 본 논문에서는 메쉬 복원을 위한 다중 뷰 일관성 인간 프록시를 생성하는 새로운 프레임워크인 DiffProxy를 제안합니다. DiffProxy의 핵심은 확산 기반 생성 사전 지식을 활용하여 합성 데이터 학습과 실제 세계 일반화를 연결하는 데 있습니다. 주요 혁신 사항은 다음과 같습니다: (1) 다중 뷰 일관적이며 픽셀 정렬된 인간 프록시 생성을 위한 다중 조건 메커니즘; (2) 유연한 시각적 프롬프트를 통합하여 국부적 세부 사항을 향상시키는 손 세부화 모듈; (3) 최적화 과정에서 어려운 사례에 대한 강건성을 높이는 불확실성 인지 테스트 타임 스케일링 방법. 이러한 설계는 메쉬 복원 과정이 확산 기반 파이프라인의 정밀한 합성 실측 정답과 생성적 이점으로부터 효과적으로 이점을 얻도록 보장합니다. 오직 합성 데이터로만 학습된 DiffProxy는 5개의 실제 세계 벤치마크에서 최첨단 성능을 달성하며, 특히 폐색 및 부분 뷰가 있는 어려운 시나리오에서 강력한 제로샷 일반화 능력을 입증했습니다. 프로젝트 페이지: https://wrk226.github.io/DiffProxy.html
English
Human mesh recovery from multi-view images faces a fundamental challenge: real-world datasets contain imperfect ground-truth annotations that bias the models' training, while synthetic data with precise supervision suffers from domain gap. In this paper, we propose DiffProxy, a novel framework that generates multi-view consistent human proxies for mesh recovery. Central to DiffProxy is leveraging the diffusion-based generative priors to bridge the synthetic training and real-world generalization. Its key innovations include: (1) a multi-conditional mechanism for generating multi-view consistent, pixel-aligned human proxies; (2) a hand refinement module that incorporates flexible visual prompts to enhance local details; and (3) an uncertainty-aware test-time scaling method that increases robustness to challenging cases during optimization. These designs ensure that the mesh recovery process effectively benefits from the precise synthetic ground truth and generative advantages of the diffusion-based pipeline. Trained entirely on synthetic data, DiffProxy achieves state-of-the-art performance across five real-world benchmarks, demonstrating strong zero-shot generalization particularly on challenging scenarios with occlusions and partial views. Project page: https://wrk226.github.io/DiffProxy.html
PDF41January 7, 2026