Human3R: Todos en Todas Partes al Mismo Tiempo
Human3R: Everyone Everywhere All at Once
October 7, 2025
Autores: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI
Resumen
Presentamos Human3R, un marco unificado y de avance directo para la reconstrucción 4D en línea de humanos en escenas, en el marco de referencia mundial, a partir de videos monoculares capturados de manera casual. A diferencia de enfoques previos que dependen de pipelines de múltiples etapas, refinamiento iterativo consciente del contacto entre humanos y escenas, y fuertes dependencias, como detección humana, estimación de profundidad y preprocesamiento SLAM, Human3R recupera conjuntamente cuerpos SMPL-X globales de múltiples personas ("todos"), escenas 3D densas ("en todas partes") y trayectorias de cámara en una sola pasada hacia adelante ("todo a la vez"). Nuestro método se basa en el modelo de reconstrucción 4D en línea CUT3R y utiliza ajuste de indicaciones visuales eficiente en parámetros, con el objetivo de preservar los ricos conocimientos espacio-temporales de CUT3R, mientras permite la lectura directa de múltiples cuerpos SMPL-X. Human3R es un modelo unificado que elimina dependencias pesadas y refinamiento iterativo. Después de ser entrenado en el conjunto de datos sintético de pequeña escala BEDLAM durante solo un día en una GPU, logra un rendimiento superior con una eficiencia notable: reconstruye múltiples humanos de manera única, junto con escenas 3D, en una sola etapa, a velocidad en tiempo real (15 FPS) con un bajo consumo de memoria (8 GB). Experimentos extensos demuestran que Human3R ofrece un rendimiento de vanguardia o competitivo en diversas tareas, incluyendo estimación global de movimiento humano, recuperación local de mallas humanas, estimación de profundidad en video y estimación de pose de cámara, con un solo modelo unificado. Esperamos que Human3R sirva como una línea base simple pero sólida, y sea fácilmente extendible para aplicaciones posteriores. Código disponible en https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D
human-scene reconstruction, in the world frame, from casually captured
monocular videos. Unlike previous approaches that rely on multi-stage
pipelines, iterative contact-aware refinement between humans and scenes, and
heavy dependencies, e.g., human detection, depth estimation, and SLAM
pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies
("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a
single forward pass ("all-at-once"). Our method builds upon the 4D online
reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning,
to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct
readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates
heavy dependencies and iterative refinement. After being trained on the
relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it
achieves superior performance with remarkable efficiency: it reconstructs
multiple humans in a one-shot manner, along with 3D scenes, in one stage, at
real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive
experiments demonstrate that Human3R delivers state-of-the-art or competitive
performance across tasks, including global human motion estimation, local human
mesh recovery, video depth estimation, and camera pose estimation, with a
single unified model. We hope that Human3R will serve as a simple yet strong
baseline, be easily extended for downstream applications.Code available in
https://fanegg.github.io/Human3R