Дискриминационное отношение к компонентам движения способствует совместному обучению оценке глубины и эго-движения.
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
November 3, 2025
Авторы: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI
Аннотация
Беспрецедентное обучение глубины и эго-движения, двух фундаментальных задач 3D-восприятия, достигло значительного прогресса в последние годы. Однако большинство методов рассматривают эго-движение как вспомогательную задачу, либо смешивая все типы движения, либо исключая независимые от глубины вращательные движения при обучении. Подобные подходы ограничивают включение строгих геометрических ограничений, снижая надежность и устойчивость в различных условиях. Данное исследование предлагает дифференцированное разделение компонентов движения, используя геометрические закономерности их соответствующих жестких потоков для улучшения оценки как глубины, так и эго-движения. При подаче последовательных видеокадров выходные данные сети сначала выравнивают оптические оси и плоскости изображения исходной и целевой камер. Оптические потоки между кадрами преобразуются через эти выравнивания, а отклонения количественно оцениваются для наложения геометрических ограничений на каждый компонент эго-движения в отдельности, что позволяет проводить более целенаправленную оптимизацию. Эти выравнивания дополнительно преобразуют процесс совместного обучения в соосную и компланарную формы, где глубина и каждый компонент трансляции могут быть взаимно выведены через замкнутые геометрические соотношения, вводя дополнительные ограничения, повышающие устойчивость оценки глубины. DiMoDE — общая структура совместного обучения глубины и эго-движения, включающая данные подходы, — демонстрирует наилучшие результаты на нескольких публичных наборах данных и новом собранном разнородном наборе реальных данных, особенно в сложных условиях. Наш исходный код будет общедоступен по адресу mias.group/DiMoDE после публикации.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception
tasks, has made significant strides in recent years. However, most methods
treat ego-motion as an auxiliary task, either mixing all motion types or
excluding depth-independent rotational motions in supervision. Such designs
limit the incorporation of strong geometric constraints, reducing reliability
and robustness under diverse conditions. This study introduces a discriminative
treatment of motion components, leveraging the geometric regularities of their
respective rigid flows to benefit both depth and ego-motion estimation. Given
consecutive video frames, network outputs first align the optical axes and
imaging planes of the source and target cameras. Optical flows between frames
are transformed through these alignments, and deviations are quantified to
impose geometric constraints individually on each ego-motion component,
enabling more targeted refinement. These alignments further reformulate the
joint learning process into coaxial and coplanar forms, where depth and each
translation component can be mutually derived through closed-form geometric
relationships, introducing complementary constraints that improve depth
robustness. DiMoDE, a general depth and ego-motion joint learning framework
incorporating these designs, achieves state-of-the-art performance on multiple
public datasets and a newly collected diverse real-world dataset, particularly
under challenging conditions. Our source code will be publicly available at
mias.group/DiMoDE upon publication.