シングルパスによる複数人物マルチビュー映像からのコヒーレントな人間・シーン再構築
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
March 13, 2026
著者: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
cs.AI
要旨
3D基盤モデルの最近の進歩により、人物とその周辺環境の再構築に対する関心が高まっています。しかし、既存手法の多くは単眼入力に焦点を当てており、マルチビュー設定に拡張するには追加のオーバーヘッドモジュールや前処理データが必要です。この課題に対し、本論文では外部モジュールや前処理に依存せず、複数人物・複数視点の動画からカメラ、シーンの点群、人物メッシュを共同で推定する統一フレームワーク「CHROMM」を提案します。Pi3XとMulti-HMRから得られる強力な幾何学事前情報と人物事前情報を単一の学習可能なニューラルネットワークアーキテクチャに統合し、人物とシーンの間のスケール不一致を解決するためのスケール調整モジュールを導入しました。さらに、テスト時にビュー毎の推定結果を単一の表現に集約するマルチビューフュージョン戦略を採用しています。最後に、外観ベースの手法よりも頑健な幾何学ベースの複数人物関連付け手法を提案します。EMDB、RICH、EgoHumans、EgoExo4Dを用いた実験により、CHROMMは大域的人物動作推定およびマルチビューポーズ推定において競合的な性能を達成し、従来の最適化ベースのマルチビュー手法よりも8倍以上高速に動作することを示します。プロジェクトページ: https://nstar1125.github.io/chromm。
English
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.