Tratamento Discriminatório de Componentes de Movimento Evolui a Aprendizagem Conjunta de Profundidade e Ego-Movimento
Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning
November 3, 2025
Autores: Mengtan Zhang, Zizhan Guo, Hongbo Zhao, Yi Feng, Zuyi Xiong, Yue Wang, Shaoyi Du, Hanli Wang, Rui Fan
cs.AI
Resumo
A aprendizagem não supervisionada de profundidade e movimento egocêntrico, duas tarefas fundamentais de percepção 3D, tem registado progressos significativos nos últimos anos. No entanto, a maioria dos métodos trata o movimento egocêntrico como uma tarefa auxiliar, seja misturando todos os tipos de movimento ou excluindo movimentos rotacionais independentes da profundidade na supervisão. Tais projetos limitam a incorporação de fortes restrições geométricas, reduzindo a fiabilidade e robustez sob condições diversas. Este estudo introduz um tratamento discriminativo dos componentes de movimento, aproveitando as regularidades geométricas dos seus respetivos fluxos rígidos para beneficiar tanto a estimativa de profundidade como a de movimento egocêntrico. Dados fotogramas de vídeo consecutivos, as saídas da rede alinham primeiro os eixos óticos e os planos de imagem das câmaras de origem e destino. Os fluxos óticos entre fotogramas são transformados através destes alinhamentos, e os desvios são quantificados para impor restrições geométricas individualmente em cada componente de movimento egocêntrico, permitindo um refinamento mais direcionado. Estes alinhamentos reformulam ainda mais o processo de aprendizagem conjunta em formas coaxial e coplanar, onde a profundidade e cada componente de translação podem ser mutuamente derivados através de relações geométricas de forma fechada, introduzindo restrições complementares que melhoram a robustez da profundidade. O DiMoDE, uma estrutura geral de aprendizagem conjunta de profundidade e movimento egocêntrico que incorpora estes projetos, atinge um desempenho de ponta em múltiplos conjuntos de dados públicos e num novo conjunto de dados do mundo real diversificado, particularmente sob condições desafiadoras. O nosso código fonte estará publicamente disponível em mias.group/DiMoDE após a publicação.
English
Unsupervised learning of depth and ego-motion, two fundamental 3D perception
tasks, has made significant strides in recent years. However, most methods
treat ego-motion as an auxiliary task, either mixing all motion types or
excluding depth-independent rotational motions in supervision. Such designs
limit the incorporation of strong geometric constraints, reducing reliability
and robustness under diverse conditions. This study introduces a discriminative
treatment of motion components, leveraging the geometric regularities of their
respective rigid flows to benefit both depth and ego-motion estimation. Given
consecutive video frames, network outputs first align the optical axes and
imaging planes of the source and target cameras. Optical flows between frames
are transformed through these alignments, and deviations are quantified to
impose geometric constraints individually on each ego-motion component,
enabling more targeted refinement. These alignments further reformulate the
joint learning process into coaxial and coplanar forms, where depth and each
translation component can be mutually derived through closed-form geometric
relationships, introducing complementary constraints that improve depth
robustness. DiMoDE, a general depth and ego-motion joint learning framework
incorporating these designs, achieves state-of-the-art performance on multiple
public datasets and a newly collected diverse real-world dataset, particularly
under challenging conditions. Our source code will be publicly available at
mias.group/DiMoDE upon publication.