Human3R: 모든 곳의 모든 사람을 위한 동시적 접근
Human3R: Everyone Everywhere All at Once
October 7, 2025
저자: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI
초록
본 논문에서는 단안 카메라로 캐주얼하게 촬영된 비디오로부터 세계 좌표계에서 온라인 4D 인간-장면 재구성을 위한 통합된 피드포워드 프레임워크인 Human3R을 제안한다. 기존의 다단계 파이프라인, 인간과 장면 간의 반복적인 접촉 인식 정제, 그리고 인간 탐지, 깊이 추정, SLAM 전처리와 같은 높은 의존성을 요구하는 방법들과 달리, Human3R은 단일 순방향 패스("all-at-once")에서 전역 다중 인물 SMPL-X 신체("everyone"), 밀집 3D 장면("everywhere"), 그리고 카메라 궤적을 동시에 복원한다. 우리의 방법은 4D 온라인 재구성 모델인 CUT3R을 기반으로 하며, 파라미터 효율적인 시각적 프롬프트 튜닝을 사용하여 CUT3R의 풍부한 시공간 사전 지식을 보존하면서도 다중 SMPL-X 신체의 직접적인 판독을 가능하게 한다. Human3R은 높은 의존성과 반복적 정제를 제거한 통합 모델이다. 단일 GPU에서 단 하루 동안 비교적 소규모의 합성 데이터셋인 BEDLAM으로 훈련된 후, 실시간 속도(15 FPS)와 낮은 메모리 사용량(8 GB)으로 한 단계에서 다중 인간과 3D 장면을 일회성으로 재구성하는 우수한 성능을 달성한다. 광범위한 실험을 통해 Human3R이 전역 인간 운동 추정, 지역 인간 메쉬 복원, 비디오 깊이 추정, 카메라 포즈 추정 등 다양한 작업에서 최신 기술 수준 또는 경쟁력 있는 성능을 단일 통합 모델로 제공함을 입증한다. 우리는 Human3R이 간단하면서도 강력한 기준선으로서 하위 애플리케이션으로 쉽게 확장될 수 있기를 바란다. 코드는 https://fanegg.github.io/Human3R에서 확인할 수 있다.
English
We present Human3R, a unified, feed-forward framework for online 4D
human-scene reconstruction, in the world frame, from casually captured
monocular videos. Unlike previous approaches that rely on multi-stage
pipelines, iterative contact-aware refinement between humans and scenes, and
heavy dependencies, e.g., human detection, depth estimation, and SLAM
pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies
("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a
single forward pass ("all-at-once"). Our method builds upon the 4D online
reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning,
to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct
readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates
heavy dependencies and iterative refinement. After being trained on the
relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it
achieves superior performance with remarkable efficiency: it reconstructs
multiple humans in a one-shot manner, along with 3D scenes, in one stage, at
real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive
experiments demonstrate that Human3R delivers state-of-the-art or competitive
performance across tasks, including global human motion estimation, local human
mesh recovery, video depth estimation, and camera pose estimation, with a
single unified model. We hope that Human3R will serve as a simple yet strong
baseline, be easily extended for downstream applications.Code available in
https://fanegg.github.io/Human3R