Inferencia de Escenas 4D Composicionales sin Haber Visto Ninguna
Inferring Compositional 4D Scenes without Ever Seeing One
December 4, 2025
Autores: Ahmet Berke Gokmen, Ajad Chhatkuli, Luc Van Gool, Danda Pani Paudel
cs.AI
Resumen
Las escenas del mundo real suelen estar compuestas por varios objetos estáticos y dinámicos. Capturar sus estructuras 4-dimensionales, composición y configuración espacio-temporal en entornos naturales, aunque extremadamente interesante, es igualmente difícil. Por lo tanto, los trabajos existentes suelen centrarse en un objeto a la vez, mientras dependen de algún modelo de forma paramétrico específico de categoría para los objetos dinámicos. Esto puede conducir a configuraciones de escena inconsistentes, además de limitarse a las categorías de objetos modeladas. Proponemos COM4D (Composición 4D), un método que predice de manera consistente y conjunta la estructura y la configuración espacio-temporal de objetos 4D/3D utilizando únicamente supervisión de objetos múltiples estáticos o de un único objeto dinámico. Logramos esto mediante un entrenamiento cuidadosamente diseñado de atenciones espaciales y temporales sobre una entrada de video 2D. El entrenamiento se desglosa en el aprendizaje a partir de composiciones de objetos por un lado, y la dinámica de un único objeto a lo largo del video por otro, evitando así completamente la dependencia de datos de entrenamiento composicionales 4D. En el momento de la inferencia, nuestro mecanismo de mezcla de atención propuesto combina estas atenciones aprendidas de forma independiente, sin requerir ningún ejemplo de composición 4D. Alternando entre el razonamiento espacial y temporal, COM4D reconstruye escenas 4D completas y persistentes con múltiples objetos que interactúan directamente a partir de videos monoculares. Además, COM4D proporciona resultados de vanguardia en problemas separados existentes de reconstrucción 4D de objetos y reconstrucción 3D compuesta, a pesar de ser puramente basado en datos.
English
Scenes in the real world are often composed of several static and dynamic objects. Capturing their 4-dimensional structures, composition and spatio-temporal configuration in-the-wild, though extremely interesting, is equally hard. Therefore, existing works often focus on one object at a time, while relying on some category-specific parametric shape model for dynamic objects. This can lead to inconsistent scene configurations, in addition to being limited to the modeled object categories. We propose COM4D (Compositional 4D), a method that consistently and jointly predicts the structure and spatio-temporal configuration of 4D/3D objects using only static multi-object or dynamic single object supervision. We achieve this by a carefully designed training of spatial and temporal attentions on 2D video input. The training is disentangled into learning from object compositions on the one hand, and single object dynamics throughout the video on the other, thus completely avoiding reliance on 4D compositional training data. At inference time, our proposed attention mixing mechanism combines these independently learned attentions, without requiring any 4D composition examples. By alternating between spatial and temporal reasoning, COM4D reconstructs complete and persistent 4D scenes with multiple interacting objects directly from monocular videos. Furthermore, COM4D provides state-of-the-art results in existing separate problems of 4D object and composed 3D reconstruction despite being purely data-driven.