Reconstrução Coerente de Humanos e Cenários a partir de Vídeo Multi-Pessoa e Multi-Visão em uma Única Passada
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
March 13, 2026
Autores: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
cs.AI
Resumo
Os recentes avanços em modelos de base 3D têm despertado um crescente interesse na reconstrução de humanos e seus ambientes circundantes. No entanto, a maioria das abordagens existentes concentra-se em entradas monoculares, e sua extensão para configurações multi-visão requer módulos adicionais ou dados pré-processados. Para tanto, apresentamos o CHROMM, uma estrutura unificada que estima conjuntamente câmeras, nuvens de pontos da cena e malhas humanas a partir de vídeos multi-visão com múltiplas pessoas, sem depender de módulos externos ou pré-processamento. Integramos fortes prioridades geométricas e humanas do Pi3X e do Multi-HMR em uma única arquitetura de rede neural treinável e introduzimos um módulo de ajuste de escala para resolver a discrepância de escala entre humanos e a cena. Também introduzimos uma estratégia de fusão multi-visão para agregar estimativas por visão em uma única representação durante o teste. Por fim, propomos um método de associação multi-pessoa baseado em geometria, que é mais robusto do que as abordagens baseadas em aparência. Experimentos no EMDB, RICH, EgoHumans e EgoExo4D mostram que o CHROMM alcança desempenho competitivo na estimativa de movimento humano global e de pose multi-visão, enquanto é executado mais de 8 vezes mais rápido do que as abordagens multi-visão baseadas em otimização anteriores. Página do projeto: https://nstar1125.github.io/chromm.
English
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.