ChatPaper.aiChatPaper

Human3R: Tutti Ovunque Tutto in Una Volta

Human3R: Everyone Everywhere All at Once

October 7, 2025
Autori: Yue Chen, Xingyu Chen, Yuxuan Xue, Anpei Chen, Yuliang Xiu, Gerard Pons-Moll
cs.AI

Abstract

Presentiamo Human3R, un framework unificato e feed-forward per la ricostruzione online 4D di umani e scene, nel sistema di riferimento globale, a partire da video monoculari acquisiti in modo casuale. A differenza degli approcci precedenti che si basano su pipeline multi-stage, raffinamenti iterativi consapevoli dei contatti tra umani e scene, e pesanti dipendenze, ad esempio rilevamento umano, stima della profondità e pre-elaborazione SLAM, Human3R ricostruisce congiuntamente corpi SMPL-X globali multi-persona ("tutti"), scene 3D dense ("ovunque") e traiettorie della fotocamera in un unico passaggio in avanti ("tutto in una volta"). Il nostro metodo si basa sul modello di ricostruzione online 4D CUT3R e utilizza il tuning efficiente di prompt visivi per preservare i ricchi prior spazio-temporali di CUT3R, consentendo al contempo la lettura diretta di più corpi SMPL-X. Human3R è un modello unificato che elimina pesanti dipendenze e raffinamenti iterativi. Dopo essere stato addestrato sul dataset sintetico relativamente piccolo BEDLAM per un solo giorno su una GPU, raggiunge prestazioni superiori con un'efficienza notevole: ricostruisce più umani in modo one-shot, insieme a scene 3D, in un'unica fase, a velocità in tempo reale (15 FPS) con un basso consumo di memoria (8 GB). Esperimenti estesi dimostrano che Human3R offre prestazioni all'avanguardia o competitive in vari task, tra cui stima del movimento umano globale, recupero di mesh umane locali, stima della profondità video e stima della posa della fotocamera, con un unico modello unificato. Speriamo che Human3R possa servire come baseline semplice ma solida, facilmente estendibile per applicazioni downstream. Codice disponibile su https://fanegg.github.io/Human3R.
English
We present Human3R, a unified, feed-forward framework for online 4D human-scene reconstruction, in the world frame, from casually captured monocular videos. Unlike previous approaches that rely on multi-stage pipelines, iterative contact-aware refinement between humans and scenes, and heavy dependencies, e.g., human detection, depth estimation, and SLAM pre-processing, Human3R jointly recovers global multi-person SMPL-X bodies ("everyone"), dense 3D scene ("everywhere"), and camera trajectories in a single forward pass ("all-at-once"). Our method builds upon the 4D online reconstruction model CUT3R, and uses parameter-efficient visual prompt tuning, to strive to preserve CUT3R's rich spatiotemporal priors, while enabling direct readout of multiple SMPL-X bodies. Human3R is a unified model that eliminates heavy dependencies and iterative refinement. After being trained on the relatively small-scale synthetic dataset BEDLAM for just one day on one GPU, it achieves superior performance with remarkable efficiency: it reconstructs multiple humans in a one-shot manner, along with 3D scenes, in one stage, at real-time speed (15 FPS) with a low memory footprint (8 GB). Extensive experiments demonstrate that Human3R delivers state-of-the-art or competitive performance across tasks, including global human motion estimation, local human mesh recovery, video depth estimation, and camera pose estimation, with a single unified model. We hope that Human3R will serve as a simple yet strong baseline, be easily extended for downstream applications.Code available in https://fanegg.github.io/Human3R
PDF92October 8, 2025