ChatPaper.aiChatPaper

Human3R: Jeder überall gleichzeitig

Human3R: Everyone Everywhere All at Once

October 7, 2025
papers.authors: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI

papers.abstract

Wir präsentieren Human3R, ein einheitliches, vorwärtsgerichtetes Framework für die Online-4D-Rekonstruktion von Mensch-Szene-Szenarien im Weltkoordinatensystem aus beiläufig aufgenommenen monokularen Videos. Im Gegensatz zu früheren Ansätzen, die auf mehrstufige Pipelines, iterative kontaktbewusste Verfeinerungen zwischen Menschen und Szenen sowie starke Abhängigkeiten, z. B. von menschlicher Erkennung, Tiefenschätzung und SLAM-Vorverarbeitung, angewiesen sind, rekonstruiert Human3R globale SMPL-X-Körper mehrerer Personen („jeder“), dichte 3D-Szenen („überall“) und Kameratrajektorien in einem einzigen Vorwärtsdurchlauf („alles auf einmal“). Unser Verfahren basiert auf dem 4D-Online-Rekonstruktionsmodell CUT3R und nutzt parameter-effizientes visuelles Prompt-Tuning, um die reichhaltigen raumzeitlichen Prioritäten von CUT3R zu bewahren und gleichzeitig die direkte Auslesung mehrerer SMPL-X-Körper zu ermöglichen. Human3R ist ein einheitliches Modell, das starke Abhängigkeiten und iterative Verfeinerungen eliminiert. Nach dem Training auf dem relativ kleinen synthetischen Datensatz BEDLAM für nur einen Tag auf einer GPU erzielt es überragende Leistung mit bemerkenswerter Effizienz: Es rekonstruiert mehrere Menschen in einem einzigen Schritt zusammen mit 3D-Szenen in einer Stufe in Echtzeit (15 FPS) mit geringem Speicherbedarf (8 GB). Umfangreiche Experimente zeigen, dass Human3R mit einem einzigen einheitlichen Modell state-of-the-art oder wettbewerbsfähige Leistungen in verschiedenen Aufgaben erzielt, darunter globale menschliche Bewegungsabschätzung, lokale menschliche Mesh-Rekonstruktion, Video-Tiefenschätzung und Kameraposenschätzung. Wir hoffen, dass Human3R als einfache, aber leistungsstarke Baseline dienen und leicht für nachgelagerte Anwendungen erweitert werden kann. Der Code ist verfügbar unter https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R
PDF82October 8, 2025