MonST3R : Une approche simple pour estimer la géométrie en présence de mouvement
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion
October 4, 2024
Auteurs: Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang
cs.AI
Résumé
Estimer la géométrie à partir de scènes dynamiques, où les objets se déplacent et se déforment au fil du temps, reste un défi majeur en vision par ordinateur. Les approches actuelles reposent souvent sur des pipelines multi-étapes ou des optimisations globales qui décomposent le problème en sous-tâches, telles que la profondeur et le flux, ce qui conduit à des systèmes complexes sujets aux erreurs. Dans cet article, nous présentons Motion DUSt3R (MonST3R), une nouvelle approche axée sur la géométrie qui estime directement la géométrie par pas de temps à partir de scènes dynamiques. Notre idée clé est qu'en estimant simplement une carte de points pour chaque pas de temps, nous pouvons adapter efficacement la représentation de DUST3R, précédemment utilisée uniquement pour les scènes statiques, aux scènes dynamiques. Cependant, cette approche présente un défi important : la rareté des données d'entraînement adaptées, à savoir des vidéos dynamiques posées avec des étiquettes de profondeur. Malgré cela, nous montrons qu'en posant le problème comme une tâche de fine-tuning, en identifiant plusieurs ensembles de données adaptés, et en formant stratégiquement le modèle sur ces données limitées, nous pouvons étonnamment permettre au modèle de gérer les dynamiques, même sans une représentation explicite du mouvement. Sur cette base, nous introduisons de nouvelles optimisations pour plusieurs tâches vidéo spécifiques et démontrons de solides performances en termes d'estimation de la profondeur vidéo et de la pose de la caméra, surpassant les travaux antérieurs en termes de robustesse et d'efficacité. De plus, MonST3R montre des résultats prometteurs pour la reconstruction principalement feed-forward en 4D.
English
Estimating geometry from dynamic scenes, where objects move and deform over
time, remains a core challenge in computer vision. Current approaches often
rely on multi-stage pipelines or global optimizations that decompose the
problem into subtasks, like depth and flow, leading to complex systems prone to
errors. In this paper, we present Motion DUSt3R (MonST3R), a novel
geometry-first approach that directly estimates per-timestep geometry from
dynamic scenes. Our key insight is that by simply estimating a pointmap for
each timestep, we can effectively adapt DUST3R's representation, previously
only used for static scenes, to dynamic scenes. However, this approach presents
a significant challenge: the scarcity of suitable training data, namely
dynamic, posed videos with depth labels. Despite this, we show that by posing
the problem as a fine-tuning task, identifying several suitable datasets, and
strategically training the model on this limited data, we can surprisingly
enable the model to handle dynamics, even without an explicit motion
representation. Based on this, we introduce new optimizations for several
downstream video-specific tasks and demonstrate strong performance on video
depth and camera pose estimation, outperforming prior work in terms of
robustness and efficiency. Moreover, MonST3R shows promising results for
primarily feed-forward 4D reconstruction.Summary
AI-Generated Summary