MonST3R: Un Enfoque Sencillo para Estimar Geometría en Presencia de Movimiento
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion
October 4, 2024
Autores: Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang
cs.AI
Resumen
La estimación de la geometría a partir de escenas dinámicas, donde los objetos se mueven y deforman con el tiempo, sigue siendo un desafío fundamental en visión por computadora. Los enfoques actuales a menudo dependen de tuberías de múltiples etapas u optimizaciones globales que descomponen el problema en subtareas, como profundidad y flujo, lo que conduce a sistemas complejos propensos a errores. En este artículo, presentamos Motion DUSt3R (MonST3R), un enfoque novedoso centrado en la geometría que estima directamente la geometría por paso de tiempo en escenas dinámicas. Nuestra idea clave es que al estimar simplemente un mapa de puntos para cada paso de tiempo, podemos adaptar de manera efectiva la representación de DUST3R, utilizada anteriormente solo para escenas estáticas, a escenas dinámicas. Sin embargo, este enfoque presenta un desafío significativo: la escasez de datos de entrenamiento adecuados, es decir, videos dinámicos posados con etiquetas de profundidad. A pesar de esto, demostramos que al plantear el problema como una tarea de ajuste fino, identificar varios conjuntos de datos adecuados y entrenar estratégicamente el modelo con estos datos limitados, podemos habilitar sorprendentemente al modelo para manejar la dinámica, incluso sin una representación explícita del movimiento. Basándonos en esto, introducimos nuevas optimizaciones para varias tareas específicas de video y demostramos un rendimiento sólido en la estimación de profundidad de video y pose de cámara, superando el trabajo previo en términos de robustez y eficiencia. Además, MonST3R muestra resultados prometedores para la reconstrucción principalmente de 4D de avance directo.
English
Estimating geometry from dynamic scenes, where objects move and deform over
time, remains a core challenge in computer vision. Current approaches often
rely on multi-stage pipelines or global optimizations that decompose the
problem into subtasks, like depth and flow, leading to complex systems prone to
errors. In this paper, we present Motion DUSt3R (MonST3R), a novel
geometry-first approach that directly estimates per-timestep geometry from
dynamic scenes. Our key insight is that by simply estimating a pointmap for
each timestep, we can effectively adapt DUST3R's representation, previously
only used for static scenes, to dynamic scenes. However, this approach presents
a significant challenge: the scarcity of suitable training data, namely
dynamic, posed videos with depth labels. Despite this, we show that by posing
the problem as a fine-tuning task, identifying several suitable datasets, and
strategically training the model on this limited data, we can surprisingly
enable the model to handle dynamics, even without an explicit motion
representation. Based on this, we introduce new optimizations for several
downstream video-specific tasks and demonstrate strong performance on video
depth and camera pose estimation, outperforming prior work in terms of
robustness and efficiency. Moreover, MonST3R shows promising results for
primarily feed-forward 4D reconstruction.Summary
AI-Generated Summary