ChatPaper.aiChatPaper

Human3R : Chacun, Partout, Tout à la Fois

Human3R: Everyone Everywhere All at Once

October 7, 2025
papers.authors: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI

papers.abstract

Nous présentons Human3R, un cadre unifié et direct pour la reconstruction 4D en ligne de scènes humaines, dans le référentiel mondial, à partir de vidéos monoscopiques capturées de manière occasionnelle. Contrairement aux approches précédentes qui reposent sur des pipelines multi-étapes, un raffinement itératif prenant en compte les contacts entre les humains et les scènes, et des dépendances lourdes, par exemple, la détection humaine, l'estimation de profondeur et le prétraitement SLAM, Human3R récupère conjointement les corps SMPL-X globaux multi-personnes ("tout le monde"), la scène 3D dense ("partout") et les trajectoires de la caméra en une seule passe avant ("tout-en-un"). Notre méthode s'appuie sur le modèle de reconstruction 4D en ligne CUT3R et utilise un réglage visuel de prompts paramétriquement efficace, afin de préserver les riches a priori spatio-temporels de CUT3R, tout en permettant la lecture directe de multiples corps SMPL-X. Human3R est un modèle unifié qui élimine les dépendances lourdes et le raffinement itératif. Après avoir été entraîné sur le jeu de données synthétique relativement petit BEDLAM pendant seulement un jour sur un GPU, il atteint des performances supérieures avec une efficacité remarquable : il reconstruit plusieurs humains en une seule étape, ainsi que des scènes 3D, en temps réel (15 FPS) avec une empreinte mémoire faible (8 Go). Des expériences approfondies démontrent que Human3R offre des performances de pointe ou compétitives dans diverses tâches, y compris l'estimation globale du mouvement humain, la récupération locale de maillages humains, l'estimation de la profondeur vidéo et l'estimation de la pose de la caméra, avec un seul modèle unifié. Nous espérons que Human3R servira de base simple mais solide, et pourra être facilement étendu pour des applications en aval. Code disponible sur https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R
PDF82October 8, 2025