Kohärente Rekonstruktion von Menschen und Szenen aus Multi-Personen Multi-View-Videos in einem einzigen Durchlauf
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
March 13, 2026
Autoren: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
cs.AI
Zusammenfassung
Jüngste Fortschritte bei 3D-Foundation-Modellen haben das Interesse an der Rekonstruktion von Menschen und ihrer Umgebung verstärkt. Die meisten bestehenden Ansätze konzentrieren sich jedoch auf monokulare Eingaben, und ihre Erweiterung auf Multi-View-Szenarien erfordert zusätzliche Overhead-Module oder vorverarbeitete Daten. Daher präsentieren wir CHROMM, einen einheitlichen Rahmen, der gemeinsam Kameras, Szenen-Punktwolken und humane Meshes aus Multi-Personen-Multi-View-Videos schätzt, ohne auf externe Module oder Vorverarbeitung angewiesen zu sein. Wir integrieren starke geometrische und humane Priors aus Pi3X und Multi-HMR in eine einzige trainierbare neuronale Netzarchitektur und führen ein Skalenanpassungsmodul ein, um die Skalendiskrepanz zwischen Menschen und der Szene zu lösen. Zudem führen wir eine Multi-View-Fusionsstrategie ein, um Einzelansichtsschätzungen zur Laufzeit in eine einheitliche Repräsentation zu aggregieren. Schließlich schlagen wir eine geometriebasierte Multi-Personen-Assoziationsmethode vor, die robuster ist als ansichtsbasierte Ansätze. Experimente auf EMDB, RICH, EgoHumans und EgoExo4D zeigen, dass CHROMM eine wettbewerbsfähige Performance bei globaler humaner Bewegung und Multi-View-Posenschätzung erreicht und dabei über 8-mal schneller läuft als bisherige optimierungsbasierte Multi-View-Ansätze. Projektseite: https://nstar1125.github.io/chromm.
English
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.