WHAC: Wereldgebaseerde Mensen en Camera's
WHAC: World-grounded Humans and Cameras
March 19, 2024
Auteurs: Wanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang
cs.AI
Samenvatting
Het schatten van menselijke en cameratrajecten met nauwkeurige schaal in het wereldcoördinatensysteem vanuit een monovideo is een zeer gewenst maar uitdagend en slecht gesteld probleem. In deze studie streven we ernaar om expressieve parametrische menselijke modellen (d.w.z. SMPL-X) en bijbehorende cameraposities gezamenlijk te herstellen, door gebruik te maken van de synergie tussen drie cruciale elementen: de wereld, de mens en de camera. Onze aanpak is gebaseerd op twee belangrijke observaties. Ten eerste herstellen SMPL-X-schattingsmethoden in het cameraframe moeiteloos de absolute menselijke diepte. Ten tweede bieden menselijke bewegingen inherent absolute ruimtelijke aanwijzingen. Door deze inzichten te integreren, introduceren we een nieuw raamwerk, genaamd WHAC, om wereldgebaseerde expressieve menselijke houding- en vormschatting (EHPS) naast camerapositieschatting mogelijk te maken, zonder te vertrouwen op traditionele optimalisatietechnieken. Daarnaast presenteren we een nieuwe synthetische dataset, WHAC-A-Mole, die nauwkeurig geannoteerde mensen en camera's bevat, en diverse interactieve menselijke bewegingen en realistische cameratrajecten omvat. Uitgebreide experimenten op zowel standaard als nieuw opgezette benchmarks benadrukken de superioriteit en effectiviteit van ons raamwerk. We zullen de code en dataset openbaar beschikbaar maken.
English
Estimating human and camera trajectories with accurate scale in the world
coordinate system from a monocular video is a highly desirable yet challenging
and ill-posed problem. In this study, we aim to recover expressive parametric
human models (i.e., SMPL-X) and corresponding camera poses jointly, by
leveraging the synergy between three critical players: the world, the human,
and the camera. Our approach is founded on two key observations. Firstly,
camera-frame SMPL-X estimation methods readily recover absolute human depth.
Secondly, human motions inherently provide absolute spatial cues. By
integrating these insights, we introduce a novel framework, referred to as
WHAC, to facilitate world-grounded expressive human pose and shape estimation
(EHPS) alongside camera pose estimation, without relying on traditional
optimization techniques. Additionally, we present a new synthetic dataset,
WHAC-A-Mole, which includes accurately annotated humans and cameras, and
features diverse interactive human motions as well as realistic camera
trajectories. Extensive experiments on both standard and newly established
benchmarks highlight the superiority and efficacy of our framework. We will
make the code and dataset publicly available.Summary
AI-Generated Summary