Tratar Discriminadamente los Componentes de Movimiento Evoluciona el Aprendizaje Conjunto de Profundidad y Ego-Movimiento
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
November 3, 2025
Autores: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI
Resumen
El aprendizaje no supervisado de profundidad y ego-movimiento, dos tareas fundamentales de percepción 3D, ha logrado avances significativos en los últimos años. Sin embargo, la mayoría de los métodos tratan el ego-movimiento como una tarea auxiliar, ya sea mezclando todos los tipos de movimiento o excluyendo los movimientos rotacionales independientes de la profundidad en la supervisión. Dichos diseños limitan la incorporación de fuertes restricciones geométricas, reduciendo la fiabilidad y robustez bajo diversas condiciones. Este estudio introduce un tratamiento discriminativo de los componentes del movimiento, aprovechando las regularidades geométricas de sus flujos rígidos respectivos para beneficiar tanto la estimación de profundidad como la de ego-movimiento. Dados fotogramas de vídeo consecutivos, las salidas de la red primero alinean los ejes ópticos y los planos de imagen de las cámaras fuente y objetivo. Los flujos ópticos entre fotogramas se transforman mediante estas alineaciones, y las desviaciones se cuantifican para imponer restricciones geométricas individualmente en cada componente del ego-movimiento, permitiendo un refinamiento más específico. Estas alineaciones reformulan además el proceso de aprendizaje conjunto en formas coaxial y coplanar, donde la profundidad y cada componente de traslación pueden derivarse mutuamente a través de relaciones geométricas de forma cerrada, introduciendo restricciones complementarias que mejoran la robustez de la profundidad. DiMoDE, un marco general de aprendizaje conjunto de profundidad y ego-movimiento que incorpora estos diseños, logra un rendimiento de vanguardia en múltiples conjuntos de datos públicos y en un nuevo conjunto de datos del mundo real diverso recopilado, particularmente bajo condiciones desafiantes. Nuestro código fuente estará disponible públicamente en mias.group/DiMoDE tras su publicación.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception
tasks, has made significant strides in recent years. However, most methods
treat ego-motion as an auxiliary task, either mixing all motion types or
excluding depth-independent rotational motions in supervision. Such designs
limit the incorporation of strong geometric constraints, reducing reliability
and robustness under diverse conditions. This study introduces a discriminative
treatment of motion components, leveraging the geometric regularities of their
respective rigid flows to benefit both depth and ego-motion estimation. Given
consecutive video frames, network outputs first align the optical axes and
imaging planes of the source and target cameras. Optical flows between frames
are transformed through these alignments, and deviations are quantified to
impose geometric constraints individually on each ego-motion component,
enabling more targeted refinement. These alignments further reformulate the
joint learning process into coaxial and coplanar forms, where depth and each
translation component can be mutually derived through closed-form geometric
relationships, introducing complementary constraints that improve depth
robustness. DiMoDE, a general depth and ego-motion joint learning framework
incorporating these designs, achieves state-of-the-art performance on multiple
public datasets and a newly collected diverse real-world dataset, particularly
under challenging conditions. Our source code will be publicly available at
mias.group/DiMoDE upon publication.