ChatPaper.aiChatPaper

WHAC: Люди и камеры, заземлённые в мире

WHAC: World-grounded Humans and Cameras

March 19, 2024
Авторы: Wanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang
cs.AI

Аннотация

Оценка траекторий человека и камеры с точным масштабом в мировой системе координат на основе монохромного видео является крайне желательной, но сложной и некорректно поставленной задачей. В данном исследовании мы стремимся восстановить выразительные параметрические модели человека (например, SMPL-X) и соответствующие позы камеры совместно, используя синергию между тремя ключевыми элементами: миром, человеком и камерой. Наш подход основан на двух важных наблюдениях. Во-первых, методы оценки SMPL-X в системе координат камеры легко восстанавливают абсолютную глубину человека. Во-вторых, движения человека естественным образом предоставляют абсолютные пространственные подсказки. Интегрируя эти идеи, мы представляем новую структуру, названную WHAC, которая позволяет оценивать выразительные позы и форму человека (EHPS), закрепленные в мировой системе координат, а также позы камеры, не полагаясь на традиционные методы оптимизации. Кроме того, мы представляем новый синтетический набор данных, WHAC-A-Mole, который включает точные аннотации людей и камер, а также разнообразные интерактивные движения человека и реалистичные траектории камеры. Многочисленные эксперименты как на стандартных, так и на новых тестовых наборах данных демонстрируют превосходство и эффективность нашей структуры. Мы сделаем код и набор данных общедоступными.
English
Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.

Summary

AI-Generated Summary

PDF32February 24, 2025