ChatPaper.aiChatPaper

Вывод составных 4D-сцен без их предварительного наблюдения

Inferring Compositional 4D Scenes without Ever Seeing One

December 4, 2025
Авторы: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI

Аннотация

Реальные сцены часто состоят из нескольких статических и динамических объектов. Фиксация их четырехмерных структур, композиции и пространственно-временной конфигурации в естественных условиях, хотя и представляет огромный интерес, является столь же сложной задачей. Поэтому существующие работы часто фокусируются на одном объекте за раз, опираясь на категориально-специфичные параметрические модели формы для динамических объектов. Это может приводить к несогласованным конфигурациям сцены, вдобавок к ограничению смоделированными категориями объектов. Мы предлагаем COM4D (Compositional 4D) — метод, который последовательно и совместно предсказывает структуру и пространственно-временную конфигурацию 4D/3D объектов, используя только supervision на статических мультиобъектных или динамических одиночных объектах. Мы достигаем этого за счет тщательно разработанного обучения пространственных и временных механизмов внимания на основе 2D видеовхода. Обучение разделено на изучение композиций объектов, с одной стороны, и динамики отдельных объектов на протяжении видео — с другой, что полностью исключает необходимость в данных для обучения 4D композиции. На этапе вывода предложенный нами механизм смешивания внимания комбинирует эти независимо изученные типы внимания, не требуя каких-либо примеров 4D композиций. Чередуя пространственные и временные рассуждения, COM4D реконструирует полные и устойчивые 4D сцены с множеством взаимодействующих объектов непосредственно из монохромных видео. Более того, COM4D демонстрирует результаты на уровне state-of-the-art в существующих отдельных задачах реконструкции 4D объектов и композитной 3D реконструкции, несмотря на полностью data-driven подход.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.
PDF22December 17, 2025