MonST3R : Une approche simple pour estimer la géométrie en présence de mouvement

papers.abstract

Estimer la géométrie à partir de scènes dynamiques, où les objets se déplacent et se déforment au fil du temps, reste un défi majeur en vision par ordinateur. Les approches actuelles reposent souvent sur des pipelines multi-étapes ou des optimisations globales qui décomposent le problème en sous-tâches, telles que la profondeur et le flux, ce qui conduit à des systèmes complexes sujets aux erreurs. Dans cet article, nous présentons Motion DUSt3R (MonST3R), une nouvelle approche axée sur la géométrie qui estime directement la géométrie par pas de temps à partir de scènes dynamiques. Notre idée clé est qu'en estimant simplement une carte de points pour chaque pas de temps, nous pouvons adapter efficacement la représentation de DUST3R, précédemment utilisée uniquement pour les scènes statiques, aux scènes dynamiques. Cependant, cette approche présente un défi important : la rareté des données d'entraînement adaptées, à savoir des vidéos dynamiques posées avec des étiquettes de profondeur. Malgré cela, nous montrons qu'en posant le problème comme une tâche de fine-tuning, en identifiant plusieurs ensembles de données adaptés, et en formant stratégiquement le modèle sur ces données limitées, nous pouvons étonnamment permettre au modèle de gérer les dynamiques, même sans une représentation explicite du mouvement. Sur cette base, nous introduisons de nouvelles optimisations pour plusieurs tâches vidéo spécifiques et démontrons de solides performances en termes d'estimation de la profondeur vidéo et de la pose de la caméra, surpassant les travaux antérieurs en termes de robustesse et d'efficacité. De plus, MonST3R montre des résultats prometteurs pour la reconstruction principalement feed-forward en 4D.

English

Estimating geometry from dynamic scenes, where objects move and deform over time, remains a core challenge in computer vision. Current approaches often rely on multi-stage pipelines or global optimizations that decompose the problem into subtasks, like depth and flow, leading to complex systems prone to errors. In this paper, we present Motion DUSt3R (MonST3R), a novel geometry-first approach that directly estimates per-timestep geometry from dynamic scenes. Our key insight is that by simply estimating a pointmap for each timestep, we can effectively adapt DUST3R's representation, previously only used for static scenes, to dynamic scenes. However, this approach presents a significant challenge: the scarcity of suitable training data, namely dynamic, posed videos with depth labels. Despite this, we show that by posing the problem as a fine-tuning task, identifying several suitable datasets, and strategically training the model on this limited data, we can surprisingly enable the model to handle dynamics, even without an explicit motion representation. Based on this, we introduce new optimizations for several downstream video-specific tasks and demonstrate strong performance on video depth and camera pose estimation, outperforming prior work in terms of robustness and efficiency. Moreover, MonST3R shows promising results for primarily feed-forward 4D reconstruction.

MonST3R : Une approche simple pour estimer la géométrie en présence de mouvement

MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion

papers.abstract

Support