WHAC: Wereldgebaseerde Mensen en Camera's

Samenvatting

Het schatten van menselijke en cameratrajecten met nauwkeurige schaal in het wereldcoördinatensysteem vanuit een monovideo is een zeer gewenst maar uitdagend en slecht gesteld probleem. In deze studie streven we ernaar om expressieve parametrische menselijke modellen (d.w.z. SMPL-X) en bijbehorende cameraposities gezamenlijk te herstellen, door gebruik te maken van de synergie tussen drie cruciale elementen: de wereld, de mens en de camera. Onze aanpak is gebaseerd op twee belangrijke observaties. Ten eerste herstellen SMPL-X-schattingsmethoden in het cameraframe moeiteloos de absolute menselijke diepte. Ten tweede bieden menselijke bewegingen inherent absolute ruimtelijke aanwijzingen. Door deze inzichten te integreren, introduceren we een nieuw raamwerk, genaamd WHAC, om wereldgebaseerde expressieve menselijke houding- en vormschatting (EHPS) naast camerapositieschatting mogelijk te maken, zonder te vertrouwen op traditionele optimalisatietechnieken. Daarnaast presenteren we een nieuwe synthetische dataset, WHAC-A-Mole, die nauwkeurig geannoteerde mensen en camera's bevat, en diverse interactieve menselijke bewegingen en realistische cameratrajecten omvat. Uitgebreide experimenten op zowel standaard als nieuw opgezette benchmarks benadrukken de superioriteit en effectiviteit van ons raamwerk. We zullen de code en dataset openbaar beschikbaar maken.

English

Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.

WHAC: Wereldgebaseerde Mensen en Camera's

WHAC: World-grounded Humans and Cameras

Samenvatting

Support