Human3R:すべての人々、あらゆる場所、常に
Human3R: Everyone Everywhere All at Once
October 7, 2025
著者: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI
要旨
本論文では、カジュアルに撮影された単眼動画から、世界座標系におけるオンライン4Dヒューマン・シーン再構成を実現する統合的なフィードフォワードフレームワーク「Human3R」を提案する。従来の手法は、多段階のパイプライン、人間とシーン間の反復的な接触認識に基づくリファインメント、人間検出、深度推定、SLAM前処理などの重い依存関係に依存していたが、Human3Rは、グローバルな複数人のSMPL-Xボディ(「全員」)、密な3Dシーン(「全領域」)、およびカメラ軌跡を単一のフォワードパスで同時に復元する(「一括処理」)。本手法は、4Dオンライン再構成モデルCUT3Rを基盤とし、パラメータ効率の良い視覚的プロンプトチューニングを用いることで、CUT3Rの豊かな時空間事前情報を維持しつつ、複数のSMPL-Xボディを直接読み取ることを可能にする。Human3Rは、重い依存関係と反復的なリファインメントを排除した統合モデルである。比較的小規模な合成データセットBEDLAMでわずか1日、1つのGPUで学習した後、リアルタイム速度(15 FPS)と低メモリ使用量(8 GB)で、複数の人間と3Dシーンをワンショットで再構成する優れた性能と効率を達成する。広範な実験により、Human3Rが、グローバルな人間の動き推定、ローカルな人間メッシュ復元、動画深度推定、カメラポーズ推定などのタスクにおいて、単一の統合モデルで最先端または競争力のある性能を発揮することが示されている。Human3Rが、シンプルでありながら強力なベースラインとして機能し、下流アプリケーションに容易に拡張されることを期待する。コードはhttps://fanegg.github.io/Human3Rで公開されている。
English
We present Human3R, a unified, feed-forward framework for online 4D
human-scene reconstruction, in the world frame, from casually captured
monocular videos. Unlike previous approaches that rely on multi-stage
pipelines, iterative contact-aware refinement between humans and scenes, and
heavy dependencies, e.g., human detection, depth estimation, and SLAM
pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies
("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a
single forward pass ("all-at-once"). Our method builds upon the 4D online
reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning,
to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct
readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates
heavy dependencies and iterative refinement. After being trained on the
relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it
achieves superior performance with remarkable efficiency: it reconstructs
multiple humans in a one-shot manner, along with 3D scenes, in one stage, at
real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive
experiments demonstrate that Human3R delivers state-of-the-art or competitive
performance across tasks, including global human motion estimation, local human
mesh recovery, video depth estimation, and camera pose estimation, with a
single unified model. We hope that Human3R will serve as a simple yet strong
baseline, be easily extended for downstream applications.Code available in
https://fanegg.github.io/Human3R