ChatPaper.aiChatPaper

WHAC : Humains et Caméras ancrés dans le monde

WHAC: World-grounded Humans and Cameras

March 19, 2024
Auteurs: Wanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang
cs.AI

Résumé

Estimer les trajectoires humaines et de la caméra avec une échelle précise dans le système de coordonnées mondial à partir d'une vidéo monoculaire est un problème hautement souhaitable, mais complexe et mal posé. Dans cette étude, nous visons à reconstruire conjointement des modèles humains paramétriques expressifs (c'est-à-dire SMPL-X) et les poses correspondantes de la caméra, en exploitant la synergie entre trois acteurs critiques : le monde, l'humain et la caméra. Notre approche repose sur deux observations clés. Premièrement, les méthodes d'estimation SMPL-X dans le référentiel de la caméra permettent de récupérer facilement la profondeur absolue de l'humain. Deuxièmement, les mouvements humains fournissent intrinsèquement des indices spatiaux absolus. En intégrant ces insights, nous introduisons un nouveau cadre, appelé WHAC, pour faciliter l'estimation expressive de la pose et de la forme humaine (EHPS) ancrée dans le monde, ainsi que l'estimation de la pose de la caméra, sans recourir à des techniques d'optimisation traditionnelles. De plus, nous présentons un nouveau jeu de données synthétique, WHAC-A-Mole, qui inclut des annotations précises d'humains et de caméras, et propose des mouvements humains interactifs variés ainsi que des trajectoires de caméra réalistes. Des expériences approfondies sur des benchmarks standards et nouvellement établis mettent en évidence la supériorité et l'efficacité de notre cadre. Nous rendrons le code et le jeu de données publics.
English
Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.

Summary

AI-Generated Summary

PDF32February 24, 2025