ChatPaper.aiChatPaper

Human3R: Iedereen Overal Tegelijkertijd

Human3R: Everyone Everywhere All at Once

October 7, 2025
Auteurs: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI

Samenvatting

We presenteren Human3R, een uniform, feed-forward raamwerk voor online 4D reconstructie van mens-scènes, in het wereldcoördinatenstelsel, vanuit casual vastgelegde monovideo's. In tegenstelling tot eerdere benaderingen die afhankelijk zijn van meerfasige pijplijnen, iteratieve contactbewuste verfijning tussen mensen en scènes, en zware afhankelijkheden, zoals mensdetectie, diepteschatting en SLAM-voorbewerking, herstelt Human3R gezamenlijk globale multi-persoon SMPL-X lichamen ("iedereen"), dichte 3D-scènes ("overal") en cameratrajecten in één enkele voorwaartse pass ("alles-in-één"). Onze methode bouwt voort op het 4D online reconstructiemodel CUT3R en gebruikt parameter-efficiënte visuele promptafstemming om te streven naar het behoud van CUT3R's rijke spatiotemporele prioriteiten, terwijl directe uitlezing van meerdere SMPL-X lichamen mogelijk wordt gemaakt. Human3R is een uniform model dat zware afhankelijkheden en iteratieve verfijning elimineert. Na slechts één dag training op de relatief kleinschalige synthetische dataset BEDLAM op één GPU, bereikt het superieure prestaties met opmerkelijke efficiëntie: het reconstrueert meerdere mensen in één keer, samen met 3D-scènes, in één fase, met real-time snelheid (15 FPS) en een laag geheugengebruik (8 GB). Uitgebreide experimenten tonen aan dat Human3R state-of-the-art of competitieve prestaties levert over verschillende taken, waaronder globale menselijke bewegingsschatting, lokale menselijke mesh-reconstructie, videodiepteschatting en cameraposeschatting, met één enkel uniform model. We hopen dat Human3R zal dienen als een eenvoudig maar sterk uitgangspunt, en gemakkelijk kan worden uitgebreid voor downstream toepassingen. Code beschikbaar op https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R
PDF92October 8, 2025