Reconstruction cohérente de scènes humaines à partir de vidéos multi-vues multi-personnes en une seule passe

Résumé

Les progrès récents des modèles de fondation 3D ont suscité un intérêt croissant pour la reconstruction des humains et de leur environnement. Cependant, la plupart des approches existantes se concentrent sur des entrées monoculaires, et leur extension à des configurations multi-vues nécessite des modules supplémentaires ou des données prétraitées. À cette fin, nous présentons CHROMM, un cadre unifié qui estime conjointement les caméras, les nuages de points de la scène et les maillages humains à partir de vidéos multi-vues multi-personnes, sans recourir à des modules externes ou à un prétraitement. Nous intégrons des préconisations géométriques et humaines robustes issues de Pi3X et Multi-HMR dans une architecture de réseau neuronal unique et entraînable, et nous introduisons un module d'ajustement d'échelle pour résoudre la divergence d'échelle entre les humains et la scène. Nous présentons également une stratégie de fusion multi-vues pour agréger les estimations par vue en une représentation unique au moment du test. Enfin, nous proposons une méthode d'association multi-personnes basée sur la géométrie, plus robuste que les approches basées sur l'apparence. Les expériences sur EMDB, RICH, EgoHumans et EgoExo4D montrent que CHROMM atteint des performances compétitives en estimation de mouvement humain global et de pose multi-vues, tout en fonctionnant plus de 8 fois plus vite que les approches multi-vues antérieures basées sur l'optimisation. Page du projet : https://nstar1125.github.io/chromm.

English

Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.

Reconstruction cohérente de scènes humaines à partir de vidéos multi-vues multi-personnes en une seule passe

Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Résumé

Support