Trattare in Modo Discriminante le Componenti di Movimento Favorisce l'Apprendimento Congiunto della Profondità e dell'Ego-Motion
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
November 3, 2025
Autori: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI
Abstract
L'apprendimento non supervisionato della profondità e dell'ego-motion, due compiti fondamentali della percezione 3D, ha compiuto progressi significativi negli ultimi anni. Tuttavia, la maggior parte dei metodi tratta l'ego-motion come un compito ausiliario, mescolando tutti i tipi di movimento o escludendo i movimenti rotazionali indipendenti dalla profondità nella supervisione. Tali progetti limitano l'incorporazione di forti vincoli geometrici, riducendo l'affidabilità e la robustezza in condizioni diverse. Questo studio introduce un trattamento discriminativo delle componenti del movimento, sfruttando le regolarità geometriche dei loro rispettivi flussi rigidi per avvantaggiare sia la stima della profondità che dell'ego-motion. Date fotogrammi video consecutivi, le uscite della rete allineano prima gli assi ottici e i piani di imaging delle telecamere sorgente e target. I flussi ottici tra i fotogrammi vengono trasformati attraverso questi allineamenti, e le deviazioni sono quantificate per imporre vincoli geometrici individualmente su ogni componente dell'ego-motion, consentendo una raffinatura più mirata. Questi allineamenti riformulano ulteriormente il processo di apprendimento congiunto in forme coassiali e complanari, dove la profondità e ogni componente di traslazione possono essere reciprocamente derivati attraverso relazioni geometriche in forma chiusa, introducendo vincoli complementari che migliorano la robustezza della profondità. DiMoDE, un framework generale per l'apprendimento congiunto di profondità e ego-motion che incorpora questi progetti, raggiunge prestazioni all'avanguardia su molteplici dataset pubblici e su un dataset reale appena raccolto e diversificato, in particolare in condizioni impegnative. Il nostro codice sorgente sarà pubblicamente disponibile su mias.group/DiMoDE dopo la pubblicazione.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception
tasks, has made significant strides in recent years. However, most methods
treat ego-motion as an auxiliary task, either mixing all motion types or
excluding depth-independent rotational motions in supervision. Such designs
limit the incorporation of strong geometric constraints, reducing reliability
and robustness under diverse conditions. This study introduces a discriminative
treatment of motion components, leveraging the geometric regularities of their
respective rigid flows to benefit both depth and ego-motion estimation. Given
consecutive video frames, network outputs first align the optical axes and
imaging planes of the source and target cameras. Optical flows between frames
are transformed through these alignments, and deviations are quantified to
impose geometric constraints individually on each ego-motion component,
enabling more targeted refinement. These alignments further reformulate the
joint learning process into coaxial and coplanar forms, where depth and each
translation component can be mutually derived through closed-form geometric
relationships, introducing complementary constraints that improve depth
robustness. DiMoDE, a general depth and ego-motion joint learning framework
incorporating these designs, achieves state-of-the-art performance on multiple
public datasets and a newly collected diverse real-world dataset, particularly
under challenging conditions. Our source code will be publicly available at
mias.group/DiMoDE upon publication.