Reconstrucción Coherente de Humanos y Escenas a partir de Vídeo Multi-Vista Multi-Persona en una Única Pasada

Resumen

Los recientes avances en modelos fundacionales 3D han generado un creciente interés en la reconstrucción de humanos y sus entornos circundantes. Sin embargo, la mayoría de los enfoques existentes se centran en entradas monoculares, y extenderlos a configuraciones multi-vista requiere módulos adicionales o datos preprocesados. Con este fin, presentamos CHROMM, un marco unificado que estima conjuntamente cámaras, nubes de puntos de la escena y mallas humanas a partir de vídeos multi-vista con múltiples personas, sin depender de módulos externos o preprocesamiento. Integramos fuertes conocimientos previos geométricos y humanos de Pi3X y Multi-HMR en una única arquitectura de red neuronal entrenable, e introducimos un módulo de ajuste de escala para resolver la discrepancia de escala entre los humanos y la escena. También introducimos una estrategia de fusión multi-vista para agregar las estimaciones por vista en una única representación en tiempo de prueba. Finalmente, proponemos un método de asociación multi-persona basado en geometría, que es más robusto que los enfoques basados en apariencia. Los experimentos en EMDB, RICH, EgoHumans y EgoExo4D muestran que CHROMM logra un rendimiento competitivo en la estimación de movimiento humano global y de pose multi-vista, mientras se ejecuta más de 8 veces más rápido que los enfoques multi-vista anteriores basados en optimización. Página del proyecto: https://nstar1125.github.io/chromm.

English

Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.

Reconstrucción Coherente de Humanos y Escenas a partir de Vídeo Multi-Vista Multi-Persona en una Única Pasada

Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass

Resumen

Support