ChatPaper.aiChatPaper

Inferindo Cenas Composicionais 4D sem Nunca Ter Visto Uma

Inferring Compositional 4D Scenes without Ever Seeing One

December 4, 2025
Autores: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI

Resumo

As cenas do mundo real são frequentemente compostas por vários objetos estáticos e dinâmicos. Capturar as suas estruturas 4-dimensionais, composição e configuração espaço-temporal em ambientes não controlados, embora extremamente interessante, é igualmente difícil. Consequentemente, os trabalhos existentes focam-se frequentemente num objeto de cada vez, recorrendo a algum modelo de forma paramétrico específico da categoria para objetos dinâmicos. Isto pode levar a configurações de cena inconsistentes, para além de se limitar às categorias de objetos modeladas. Propomos o COM4D (Composicional 4D), um método que prevê de forma consistente e conjunta a estrutura e a configuração espaço-temporal de objetos 4D/3D, utilizando apenas supervisão estática de múltiplos objetos ou supervisão dinâmica de objeto único. Conseguimos isto através de um treino cuidadosamente concebido de atenções espaciais e temporais em vídeos 2D de entrada. O treino é desacoplado na aprendizagem de composições de objetos, por um lado, e na dinâmica de objeto único ao longo do vídeo, por outro, evitando assim completamente a dependência de dados de treino composicionais 4D. No momento da inferência, o nosso mecanismo proposto de mistura de atenções combina estas atenções aprendidas independentemente, sem necessitar de quaisquer exemplos de composição 4D. Alternando entre o raciocínio espacial e temporal, o COM4D reconstrói cenas 4D completas e persistentes com múltiplos objetos em interação diretamente a partir de vídeos monoculares. Adicionalmente, o COM4D fornece resultados state-of-the-art em problemas separados existentes de reconstrução 4D de objetos e reconstrução 3D composicional, apesar de ser puramente orientado por dados.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.
PDF42March 6, 2026