Human3R: Все и везде одновременно
Human3R: Everyone Everywhere All at Once
October 7, 2025
Авторы: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI
Аннотация
Мы представляем Human3R — унифицированную прямую (feed-forward) систему для онлайн-реконструкции 4D-человека и сцены в мировых координатах на основе монохромных видео, снятых в произвольных условиях. В отличие от предыдущих подходов, которые полагаются на многоэтапные конвейеры, итеративную оптимизацию с учетом контактов между людьми и сценой, а также на ресурсоемкие зависимости, такие как детекция людей, оценка глубины и предварительная обработка SLAM, Human3R совместно восстанавливает глобальные SMPL-X модели нескольких людей («всех»), плотную 3D-сцену («всю») и траектории камеры за один прямой проход («все сразу»). Наш метод основан на модели онлайн-реконструкции 4D CUT3R и использует параметрически эффективную настройку визуальных подсказок (visual prompt tuning), чтобы сохранить богатые пространственно-временные априорные знания CUT3R, одновременно обеспечивая прямое извлечение нескольких SMPL-X моделей. Human3R — это унифицированная модель, которая устраняет ресурсоемкие зависимости и итеративную оптимизацию. После обучения на относительно небольшом синтетическом наборе данных BEDLAM всего за один день на одном GPU она демонстрирует превосходную производительность с высокой эффективностью: реконструирует нескольких людей за один проход вместе с 3D-сценой в одном этапе, работая в реальном времени (15 кадров в секунду) с низким потреблением памяти (8 ГБ). Многочисленные эксперименты показывают, что Human3R обеспечивает передовые или конкурентоспособные результаты в различных задачах, включая глобальную оценку движения человека, локальное восстановление сетки человека, оценку глубины видео и оценку позы камеры, используя единую унифицированную модель. Мы надеемся, что Human3R станет простым, но мощным базовым решением, которое легко расширять для последующих приложений. Код доступен по адресу: https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D
human-scene reconstruction, in the world frame, from casually captured
monocular videos. Unlike previous approaches that rely on multi-stage
pipelines, iterative contact-aware refinement between humans and scenes, and
heavy dependencies, e.g., human detection, depth estimation, and SLAM
pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies
("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a
single forward pass ("all-at-once"). Our method builds upon the 4D online
reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning,
to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct
readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates
heavy dependencies and iterative refinement. After being trained on the
relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it
achieves superior performance with remarkable efficiency: it reconstructs
multiple humans in a one-shot manner, along with 3D scenes, in one stage, at
real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive
experiments demonstrate that Human3R delivers state-of-the-art or competitive
performance across tasks, including global human motion estimation, local human
mesh recovery, video depth estimation, and camera pose estimation, with a
single unified model. We hope that Human3R will serve as a simple yet strong
baseline, be easily extended for downstream applications.Code available in
https://fanegg.github.io/Human3R