ChatPaper.aiChatPaper

運動成分を識別的に扱うことで、関節深度と自己運動の学習が進化する

Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

November 3, 2025
著者: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI

要旨

深度と自己運動という2つの基本的な3D知覚タスクの教師なし学習は、近年著しい進歩を遂げている。しかし、ほとんどの手法は自己運動を補助タスクとして扱い、全ての運動タイプを混合するか、深度に依存しない回転運動を監督から除外している。このような設計は強力な幾何学的制約の導入を制限し、様々な条件下での信頼性と頑健性を低下させる。本研究は、運動成分を識別的に扱い、それぞれの剛体フローの幾何学的規則性を活用することで、深度と自己運動推定の両方に資する手法を提案する。連続するビデオフレームが与えられると、ネットワークの出力はまずソースカメラとターゲットカメラの光軸と成像面を整合させる。フレーム間のオプティカルフローはこれらの整合を通じて変換され、偏差を定量化して各自己運動成分に個別に幾何学的制約を課すことで、より標的を絞った精緻化を可能にする。これらの整合はさらに、共同学習プロセスを同軸および共面形式に再定式化し、深度と各並進成分が閉形式の幾何学的関係を通じて相互に導出できるようにする。これにより、深度の頑健性を向上させる相補的制約が導入される。これらの設計を取り入れた一般的な深度と自己運動の共同学習フレームワークであるDiMoDEは、複数の公開データセットと新たに収集した多様な実世界データセットにおいて、特に困難な条件下で最先端の性能を達成する。ソースコードは公開時にmias.group/DiMoDEで公開予定である。
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
PDF11December 2, 2025