Tratamento Discriminatório de Componentes de Movimento Evolui a Aprendizagem Conjunta de Profundidade e Ego-Movimento

Resumo

A aprendizagem não supervisionada de profundidade e movimento egocêntrico, duas tarefas fundamentais de percepção 3D, tem registado progressos significativos nos últimos anos. No entanto, a maioria dos métodos trata o movimento egocêntrico como uma tarefa auxiliar, seja misturando todos os tipos de movimento ou excluindo movimentos rotacionais independentes da profundidade na supervisão. Tais projetos limitam a incorporação de fortes restrições geométricas, reduzindo a fiabilidade e robustez sob condições diversas. Este estudo introduz um tratamento discriminativo dos componentes de movimento, aproveitando as regularidades geométricas dos seus respetivos fluxos rígidos para beneficiar tanto a estimativa de profundidade como a de movimento egocêntrico. Dados fotogramas de vídeo consecutivos, as saídas da rede alinham primeiro os eixos óticos e os planos de imagem das câmaras de origem e destino. Os fluxos óticos entre fotogramas são transformados através destes alinhamentos, e os desvios são quantificados para impor restrições geométricas individualmente em cada componente de movimento egocêntrico, permitindo um refinamento mais direcionado. Estes alinhamentos reformulam ainda mais o processo de aprendizagem conjunta em formas coaxial e coplanar, onde a profundidade e cada componente de translação podem ser mutuamente derivados através de relações geométricas de forma fechada, introduzindo restrições complementares que melhoram a robustez da profundidade. O DiMoDE, uma estrutura geral de aprendizagem conjunta de profundidade e movimento egocêntrico que incorpora estes projetos, atinge um desempenho de ponta em múltiplos conjuntos de dados públicos e num novo conjunto de dados do mundo real diversificado, particularmente sob condições desafiadoras. O nosso código fonte estará publicamente disponível em mias.group/DiMoDE após a publicação.

English

Unsupervised learning of depth and ego-motion, two fundamental 3D perception tasks, has made significant strides in recent years. However, most methods treat ego-motion as an auxiliary task, either mixing all motion types or excluding depth-independent rotational motions in supervision. Such designs limit the incorporation of strong geometric constraints, reducing reliability and robustness under diverse conditions. This study introduces a discriminative treatment of motion components, leveraging the geometric regularities of their respective rigid flows to benefit both depth and ego-motion estimation. Given consecutive video frames, network outputs first align the optical axes and imaging planes of the source and target cameras. Optical flows between frames are transformed through these alignments, and deviations are quantified to impose geometric constraints individually on each ego-motion component, enabling more targeted refinement. These alignments further reformulate the joint learning process into coaxial and coplanar forms, where depth and each translation component can be mutually derived through closed-form geometric relationships, introducing complementary constraints that improve depth robustness. DiMoDE, a general depth and ego-motion joint learning framework incorporating these designs, achieves state-of-the-art performance on multiple public datasets and a newly collected diverse real-world dataset, particularly under challenging conditions. Our source code will be publicly available at mias.group/DiMoDE upon publication.

Tratamento Discriminatório de Componentes de Movimento Evolui a Aprendizagem Conjunta de Profundidade e Ego-Movimento

Discriminately Treating Motion Components Evolves Joint Depth and Ego-Motion Learning

Resumo

Support