Согласованная реконструкция человека и сцены по многоперсональному многовидовому видео за один проход
Coherent Human-Scene Reconstruction from Multi-Person Multi-View Video in a Single Pass
March 13, 2026
Авторы: Sangmin Kim, Minhyuk Hwang, Geonho Cha, Dongyoon Wee, Jaesik Park
cs.AI
Аннотация
Последние достижения в области фундаментальных 3D-моделей вызвали растущий интерес к реконструкции людей и их окружающей среды. Однако большинство существующих подходов ориентированы на монокулярные входные данные, и их расширение для многовидовых сценариев требует дополнительных модулей или предварительно обработанных данных. В связи с этим мы представляем CHROMM — унифицированную систему, которая совместно оценивает камеры, облака точек сцены и человеческие меши из многовидео с несколькими людьми, не полагаясь на внешние модули или предварительную обработку. Мы интегрируем строгие геометрические и человеческие априорные данные из Pi3X и Multi-HMR в единую обучаемую архитектуру нейронной сети и вводим модуль корректировки масштаба для решения проблемы несоответствия масштабов между людьми и сценой. Мы также представляем стратегию многовидового слияния для агрегации оценок с каждого вида в единое представление на этапе тестирования. Наконец, мы предлагаем геометрический метод ассоциации нескольких людей, который более надежен, чем подходы на основе внешнего вида. Эксперименты на наборах данных EMDB, RICH, EgoHumans и EgoExo4D показывают, что CHROMM демонстрирует конкурентоспособные результаты в оценке глобального движения человека и многовидовой позы, работая при этом более чем в 8 раз быстрее, чем предыдущие оптимизационные многовидовые подходы. Страница проекта: https://nstar1125.github.io/chromm.
English
Recent advances in 3D foundation models have led to growing interest in reconstructing humans and their surrounding environments. However, most existing approaches focus on monocular inputs, and extending them to multi-view settings requires additional overhead modules or preprocessed data. To this end, we present CHROMM, a unified framework that jointly estimates cameras, scene point clouds, and human meshes from multi-person multi-view videos without relying on external modules or preprocessing. We integrate strong geometric and human priors from Pi3X and Multi-HMR into a single trainable neural network architecture, and introduce a scale adjustment module to solve the scale discrepancy between humans and the scene. We also introduce a multi-view fusion strategy to aggregate per-view estimates into a single representation at test-time. Finally, we propose a geometry-based multi-person association method, which is more robust than appearance-based approaches. Experiments on EMDB, RICH, EgoHumans, and EgoExo4D show that CHROMM achieves competitive performance in global human motion and multi-view pose estimation while running over 8x faster than prior optimization-based multi-view approaches. Project page: https://nstar1125.github.io/chromm.