ChatPaper.aiChatPaper

Selektive Behandlung von Bewegungskomponenten fördert gemeinsames Lernen von Tiefe und Ego-Bewegung

Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

November 3, 2025
papers.authors: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI

papers.abstract

Das unüberwachte Lernen von Tiefe und Eigenbewegung, zwei grundlegenden 3D-Wahrnehmungsaufgaben, hat in den letzten Jahren bedeutende Fortschritte erzielt. Die meisten Methoden behandeln die Eigenbewegung jedoch als Nebenbedingung, indem sie entweder alle Bewegungstypen vermischen oder tiefenunabhängige Rotationsbewegungen in der Supervision ausschließen. Solche Ansätze schränken die Einbindung starker geometrischer Zwangsbedingungen ein und verringern so die Zuverlässigkeit und Robustheit unter verschiedenen Bedingungen. Diese Studie führt eine differenzierte Behandlung von Bewegungs-komponenten ein, die die geometrischen Regularitäten ihrer jeweiligen Starrkörperflüsse nutzt, um sowohl die Tiefen- als auch die Eigenbewegungsschätzung zu verbessern. Bei aufeinanderfolgenden Videobildern werden zunächst die optischen Achsen und Bildebenen der Quell- und Zielkameras durch die Netzwerkausgaben ausgerichtet. Optische Flüsse zwischen den Bildern werden durch diese Ausrichtungen transformiert, und Abweichungen werden quantifiziert, um geometrische Zwangsbedingungen gezielt auf jede Eigenbewegungskomponente anzuwenden und eine zielgerichtetere Verfeinerung zu ermöglichen. Diese Ausrichtungen formulieren den gemeinsamen Lernprozess weiter in koaxiale und koplanare Formen um, bei denen Tiefe und jede Translationskomponente durch geschlossene geometrische Beziehungen gegenseitig abgeleitet werden können, was komplementäre Zwangsbedingungen einführt, die die Tiefenrobustheit verbessern. DiMoDE, ein allgemeines Framework für gemeinsames Lernen von Tiefe und Eigenbewegung, das diese Entwürfe integriert, erreicht state-of-the-art Leistung auf mehreren öffentlichen Datensätzen und einem neu erhobenen vielfältigen Realwelt-Datensatz, insbesondere unter anspruchsvollen Bedingungen. Unser Quellcode wird nach der Veröffentlichung unter mias.group/DiMoDE öffentlich verfügbar sein.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.
PDF11December 2, 2025