Traitement différencié des composantes du mouvement pour l'apprentissage conjoint de la profondeur et de l'égo-mouvement
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
November 3, 2025
papers.authors: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI
papers.abstract
L'apprentissage non supervisé de la profondeur et de l'ego-motion, deux tâches fondamentales de perception 3D, a réalisé des progrès significatifs ces dernières années. Cependant, la plupart des méthodes traitent l'ego-motion comme une tâche auxiliaire, soit en mélangeant tous les types de mouvement, soit en excluant les mouvements rotationnels indépendants de la profondeur lors de la supervision. De telles conceptions limitent l'intégration de fortes contraintes géométriques, réduisant la fiabilité et la robustesse dans des conditions variées. Cette étude introduit un traitement discriminatif des composantes du mouvement, exploitant les régularités géométriques de leurs flux rigides respectifs pour bénéficier à la fois à l'estimation de la profondeur et de l'ego-motion. Étant données des images vidéo consécutives, les sorties du réseau alignent d'abord les axes optiques et les plans image des caméras source et cible. Les flux optiques entre les images sont transformés via ces alignements, et les écarts sont quantifiés pour imposer des contraintes géométriques individuellement sur chaque composante de l'ego-motion, permettant un affinage plus ciblé. Ces alignements reformulent en outre le processus d'apprentissage conjoint en des formes coaxiale et coplanaire, où la profondeur et chaque composante de translation peuvent être déduites mutuellement via des relations géométriques de forme fermée, introduisant des contraintes complémentaires qui améliorent la robustesse de la profondeur. DiMoDE, un cadre général d'apprentissage conjoint de la profondeur et de l'ego-motion intégrant ces conceptions, atteint des performances de pointe sur plusieurs ensembles de données publics et sur un nouvel ensemble de données réel diversifié, particulièrement dans des conditions difficiles. Notre code source sera publiquement disponible à l'adresse mias.group/DiMoDE après publication.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception
tasks, has made significant strides in recent years. However, most methods
treat ego-motion as an auxiliary task, either mixing all motion types or
excluding depth-independent rotational motions in supervision. Such designs
limit the incorporation of strong geometric constraints, reducing reliability
and robustness under diverse conditions. This study introduces a discriminative
treatment of motion components, leveraging the geometric regularities of their
respective rigid flows to benefit both depth and ego-motion estimation. Given
consecutive video frames, network outputs first align the optical axes and
imaging planes of the source and target cameras. Optical flows between frames
are transformed through these alignments, and deviations are quantified to
impose geometric constraints individually on each ego-motion component,
enabling more targeted refinement. These alignments further reformulate the
joint learning process into coaxial and coplanar forms, where depth and each
translation component can be mutually derived through closed-form geometric
relationships, introducing complementary constraints that improve depth
robustness. DiMoDE, a general depth and ego-motion joint learning framework
incorporating these designs, achieves state-of-the-art performance on multiple
public datasets and a newly collected diverse real-world dataset, particularly
under challenging conditions. Our source code will be publicly available at
mias.group/DiMoDE upon publication.