ChatPaper.aiChatPaper

Реконструкция 4D пространственного интеллекта: обзор

Reconstructing 4D Spatial Intelligence: A Survey

July 28, 2025
Авторы: Yukang Cao, Jiahao Lu, Zhisheng Huang, Zhuowei Shen, Chengfeng Zhao, Fangzhou Hong, Zhaoxi Chen, Xin Li, Wenping Wang, Yuan Liu, Ziwei Liu
cs.AI

Аннотация

Реконструкция 4D пространственного интеллекта на основе визуальных наблюдений долгое время оставалась центральной, но сложной задачей в области компьютерного зрения, имеющей широкий спектр практических применений. Эти применения варьируются от развлекательных сфер, таких как кино, где основное внимание уделяется восстановлению базовых визуальных элементов, до воплощённого ИИ, который акцентирует внимание на моделировании взаимодействий и физической реалистичности. Благодаря быстрому прогрессу в области 3D-представлений и архитектур глубокого обучения, эта область развивается стремительно, выходя за рамки предыдущих обзоров. Кроме того, существующие обзоры редко предлагают всесторонний анализ иерархической структуры реконструкции 4D-сцен. Чтобы восполнить этот пробел, мы предлагаем новый подход, который организует существующие методы в пять прогрессивных уровней 4D пространственного интеллекта: (1) Уровень 1 — реконструкция низкоуровневых 3D-атрибутов (например, глубина, поза и карты точек); (2) Уровень 2 — реконструкция компонентов 3D-сцен (например, объекты, люди, структуры); (3) Уровень 3 — реконструкция динамических 4D-сцен; (4) Уровень 4 — моделирование взаимодействий между компонентами сцены; и (5) Уровень 5 — включение физических законов и ограничений. В завершение обзора мы обсуждаем ключевые вызовы на каждом уровне и выделяем перспективные направления для продвижения к ещё более глубоким уровням 4D пространственного интеллекта. Для отслеживания текущих разработок мы поддерживаем актуальную страницу проекта: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
English
Reconstructing 4D spatial intelligence from visual observations has long been a central yet challenging task in computer vision, with broad real-world applications. These range from entertainment domains like movies, where the focus is often on reconstructing fundamental visual elements, to embodied AI, which emphasizes interaction modeling and physical realism. Fueled by rapid advances in 3D representations and deep learning architectures, the field has evolved quickly, outpacing the scope of previous surveys. Additionally, existing surveys rarely offer a comprehensive analysis of the hierarchical structure of 4D scene reconstruction. To address this gap, we present a new perspective that organizes existing methods into five progressive levels of 4D spatial intelligence: (1) Level 1 -- reconstruction of low-level 3D attributes (e.g., depth, pose, and point maps); (2) Level 2 -- reconstruction of 3D scene components (e.g., objects, humans, structures); (3) Level 3 -- reconstruction of 4D dynamic scenes; (4) Level 4 -- modeling of interactions among scene components; and (5) Level 5 -- incorporation of physical laws and constraints. We conclude the survey by discussing the key challenges at each level and highlighting promising directions for advancing toward even richer levels of 4D spatial intelligence. To track ongoing developments, we maintain an up-to-date project page: https://github.com/yukangcao/Awesome-4D-Spatial-Intelligence.
PDF292July 29, 2025