MonST3R:運動の存在下での幾何学の推定のためのシンプルなアプローチ
MonST3R: A Simple Approach for Estimating Geometry in the Presence of Motion
October 4, 2024
著者: Junyi Zhang, Charles Herrmann, Junhwa Hur, Varun Jampani, Trevor Darrell, Forrester Cole, Deqing Sun, Ming-Hsuan Yang
cs.AI
要旨
動的シーンからの幾何学の推定は、物体が時間とともに移動し変形する状況において、コンピュータビジョンにおける中核的な課題であり続けています。現在のアプローチは、しばしば多段階のパイプラインやグローバル最適化に依存しており、深度やフローなどのサブタスクに問題を分解することで複雑なシステムが生じ、誤りを生じやすくなります。本論文では、モーションDUSt3R(MonST3R)と呼ばれる新しい幾何学中心のアプローチを提案し、動的シーンからの各時間ステップごとの幾何学を直接推定します。我々の主要な洞察は、各時間ステップに対してポイントマップを単純に推定することで、DUST3Rの表現を効果的に適応させ、これまで静的シーンにのみ使用されていた表現を動的シーンにも適用できるという点です。しかしながら、このアプローチには重要な課題があります。それは、深度ラベルを持つ動的なポーズ付きビデオという適切なトレーニングデータの不足です。それでも、我々は、問題をファインチューニングのタスクとして提示し、いくつかの適切なデータセットを特定し、この限られたデータでモデルを戦略的にトレーニングすることで、モデルが驚くほど動的なシーンを処理できるようにすることができることを示しています。これに基づいて、いくつかの後段のビデオ特有のタスクに対する新しい最適化を導入し、ビデオの深度とカメラの位置の推定において、堅牢性と効率性の観点で従来の研究を上回る強力なパフォーマンスを示します。さらに、MonST3Rは、主にフィードフォワード型の4D再構成に対して有望な結果を示しています。
English
Estimating geometry from dynamic scenes, where objects move and deform over
time, remains a core challenge in computer vision. Current approaches often
rely on multi-stage pipelines or global optimizations that decompose the
problem into subtasks, like depth and flow, leading to complex systems prone to
errors. In this paper, we present Motion DUSt3R (MonST3R), a novel
geometry-first approach that directly estimates per-timestep geometry from
dynamic scenes. Our key insight is that by simply estimating a pointmap for
each timestep, we can effectively adapt DUST3R's representation, previously
only used for static scenes, to dynamic scenes. However, this approach presents
a significant challenge: the scarcity of suitable training data, namely
dynamic, posed videos with depth labels. Despite this, we show that by posing
the problem as a fine-tuning task, identifying several suitable datasets, and
strategically training the model on this limited data, we can surprisingly
enable the model to handle dynamics, even without an explicit motion
representation. Based on this, we introduce new optimizations for several
downstream video-specific tasks and demonstrate strong performance on video
depth and camera pose estimation, outperforming prior work in terms of
robustness and efficiency. Moreover, MonST3R shows promising results for
primarily feed-forward 4D reconstruction.Summary
AI-Generated Summary