Coherente Mens-Scène Reconstructie uit Multi-Persoon Multi-View Video in één Enkele Passage
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
March 13, 2026
Auteurs: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
cs.AI
Samenvatting
Recente vooruitgang in 3D-foundationmodellen heeft geleid tot een groeiende interesse in het reconstrueren van mensen en hun omgeving. De meeste bestaande benaderingen richten zich echter op monocular invoer, en het uitbreiden daarvan naar multi-view instellingen vereist extra overheadmodules of voorbewerkte data. Daartoe presenteren wij CHROMM, een uniform raamwerk dat gezamenlijk camera's, scène-puntenwolken en humane meshes schat uit multi-persoon multi-view video's, zonder afhankelijk te zijn van externe modules of preprocessing. We integreren sterke geometrische en humane priors van Pi3X en Multi-HMR in een enkele trainbare neurale netwerkarchitectuur, en introduceren een schaalaanpassingsmodule om de schaaldiscrepantie tussen mensen en de scène op te lossen. We introduceren ook een multi-view fusiestrategie om per-view schattingen samen te voegen tot een enkele representatie tijdens de testfase. Ten slotte stellen we een geometriegebaseerde multi-persoon associatiemethode voor, die robuuster is dan op uiterlijk gebaseerde benaderingen. Experimenten op EMDB, RICH, EgoHumans en EgoExo4D tonen aan dat CHROMM competitieve prestaties levert in globale humane beweging en multi-view houdingsschatting, terwijl het meer dan 8x sneller draait dan eerdere op optimalisatie gebaseerde multi-view benaderingen. Projectpagina: https://nstar1125.github.io/chromm.
English
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.