ChatPaper.aiChatPaper

운동 구성 요소를 차별적으로 다루는 접근법이 공동 깊이 및 자체 운동 학습을 발전시킵니다

Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

November 3, 2025
저자: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI

초록

깊이와 자체 운동이라는 두 가지 기본적인 3D 인식 과제에 대한 비지도 학습은 최근 몇 년 동안 큰 진전을 이루었습니다. 그러나 대부분의 방법은 자체 운동을 보조 작업으로 취급하여 모든 운동 유형을 혼합하거나 깊이와 무관한 회전 운동을 supervision에서 제외합니다. 이러한 설계는 강력한 기하학적 제약의 통합을 제한하여 다양한 조건에서의 신뢰성과 강건성을 감소시킵니다. 본 연구는 운동 구성 요소에 대한 판별적 처리를 도입하여 각각의 강체 흐름에 내재된 기하학적 규칙성을 활용해 깊이 및 자체 운동 추정 모두에 이득을 줍니다. 연속된 비디오 프레임이 주어지면, 네트워크 출력은 먼저 소스 및 타겟 카메라의 광축과 이미징 평면을 정렬합니다. 프레임 간의 광학 흐름은 이러한 정렬을 통해 변환되며, 편차를 정량화하여 각 자체 운동 구성 요소에 개별적으로 기하학적 제약을 가함으로써 더욱 표적화된 정밀 조정을 가능하게 합니다. 이러한 정렬은 더 나아가 공동 학습 과정을 동축 및 동평면 형태로 재구성하여, 깊이와 각 병진 운동 구성 요소가 닫힌 형식의 기하학적 관계를 통해 상호 도출될 수 있게 하여 깊이 강건성을 향상시키는 상호 보완적 제약을 도입합니다. 이러한 설계를 통합한 일반적인 깊이 및 자체 운동 공동 학습 프레임워크인 DiMoDE는 여러 공개 데이터셋과 새로 수집된 다양한 실제 세계 데이터셋에서 특히 어려운 조건 하에서 최첨단 성능을 달성합니다. 본 논문 출판 시 소스 코드는 mias.group/DiMoDE에서 공개될 예정입니다.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
PDF11December 2, 2025