ChatPaper.aiChatPaper

WHAC: ワールドグラウンデッド ヒューマンズ アンド カメラズ

WHAC: World-grounded Humans and Cameras

March 19, 2024
著者: Wanqi Yin, Zhongang Cai, Ruisi Wang, Fanzhou Wang, Chen Wei, Haiyi Mei, Weiye Xiao, Zhitao Yang, Qingping Sun, Atsushi Yamashita, Ziwei Liu, Lei Yang
cs.AI

要旨

モノクルビデオから世界座標系において正確なスケールで人間とカメラの軌跡を推定することは、望ましいが困難で不適切な問題です。本研究では、世界、人間、カメラという3つの重要な要素のシナジーを活用して、表現豊かなパラメトリック人間モデル(すなわち、SMPL-X)と対応するカメラポーズを同時に回復することを目指します。我々のアプローチは、2つの主要な観察に基づいています。第一に、カメラフレームのSMPL-X推定手法は、絶対的な人間の奥行きを容易に回復します。第二に、人間の動き自体が絶対的な空間的手がかりを提供します。これらの洞察を統合することで、従来の最適化技術に依存しない世界に根ざした表現豊かな人間のポーズと形状の推定(EHPS)とカメラポーズの推定を促進する新しいフレームワークであるWHACを紹介します。さらに、WHAC-A-Moleと呼ばれる新しい合成データセットを提示します。このデータセットには、正確に注釈付けされた人間とカメラが含まれ、多様なインタラクティブな人間の動きと現実的なカメラ軌跡が特徴として含まれています。標準的なベンチマークと新たに設定されたベンチマークの両方での広範な実験は、我々のフレームワークの優越性と効果を示しています。コードとデータセットは公開されます。
English
Estimating human and camera trajectories with accurate scale in the world coordinate system from a monocular video is a highly desirable yet challenging and ill-posed problem. In this study, we aim to recover expressive parametric human models (i.e., SMPL-X) and corresponding camera poses jointly, by leveraging the synergy between three critical players: the world, the human, and the camera. Our approach is founded on two key observations. Firstly, camera-frame SMPL-X estimation methods readily recover absolute human depth. Secondly, human motions inherently provide absolute spatial cues. By integrating these insights, we introduce a novel framework, referred to as WHAC, to facilitate world-grounded expressive human pose and shape estimation (EHPS) alongside camera pose estimation, without relying on traditional optimization techniques. Additionally, we present a new synthetic dataset, WHAC-A-Mole, which includes accurately annotated humans and cameras, and features diverse interactive human motions as well as realistic camera trajectories. Extensive experiments on both standard and newly established benchmarks highlight the superiority and efficacy of our framework. We will make the code and dataset publicly available.

Summary

AI-Generated Summary

PDF32February 24, 2025