ChatPaper.aiChatPaper

Selectief Behandelen van Bewegingscomponenten Bevordert Gezamenlijke Diepte- en Ego-Motion-Leren

Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

November 3, 2025
Auteurs: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI

Samenvatting

Onbegeleid leren van diepte en ego-motion, twee fundamentele 3D-perceptietaken, heeft de afgelopen jaren aanzienlijke vooruitgang geboekt. De meeste methoden behandelen ego-motion echter als een hulptaak, waarbij ofwel alle bewegingstypen worden gemengd ofwel diepte-onafhankelijke rotatiebewegingen worden uitgesloten in de supervisie. Dergelijke ontwerpen beperken de integratie van sterke geometrische beperkingen, wat de betrouwbaarheid en robuustheid onder diverse omstandigheden vermindert. Deze studie introduceert een onderscheidende behandeling van bewegingcomponenten, waarbij gebruik wordt gemaakt van de geometrische regelmatigheden van hun respectievelijke rigide flows om zowel de diepte- als ego-motion-schatting te verbeteren. Gegeven opeenvolgende videoframes, stellen netwerkuitvoeren eerst de optische assen en beeldvlakken van de bron- en doelscamera's uit. Optische flows tussen frames worden getransformeerd door deze uitlijningen, en afwijkingen worden gekwantificeerd om afzonderlijk geometrische beperkingen op te leggen aan elke ego-motion-component, wat een gerichtere verfijning mogelijk maakt. Deze uitlijningen herformuleren verder het gezamenlijke leerproces in coaxiale en coplaire vormen, waar diepte en elke translatiecomponent onderling kunnen worden afgeleid via gesloten geometrische relaties, wat aanvullende beperkingen introduceert die de diepterobuustheid verbeteren. DiMoDE, een algemeen kader voor gezamenlijk leren van diepte en ego-motion dat deze ontwerpen incorporeert, behaalt state-of-the-art prestaties op meerdere openbare datasets en een nieuw verzamelde, diverse real-world dataset, met name onder uitdagende omstandigheden. Onze broncode zal na publicatie openbaar beschikbaar zijn op mias.group/DiMoDE.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
PDF11December 2, 2025