Aprendizagem de Correspondência de Objetos entre Diferentes Visões por meio de Previsão de Máscaras Cíclicamente Consistente

Resumo

Estudamos a tarefa de estabelecer correspondência visual a nível de objetos entre diferentes pontos de vista em vídeos, com foco nos cenários desafiadores de transição egocêntrica-para-exocêntrica e exocêntrica-para-egocêntrica. Propomos uma estrutura simples, porém eficaz, baseada em segmentação binária condicional, na qual uma máscara de consulta de objeto é codificada numa representação latente para orientar a localização do objeto correspondente num vídeo-alvo. Para incentivar representações robustas e invariantes ao ponto de vista, introduzimos um objetivo de treino de consistência cíclica: a máscara prevista na vista-alvo é projetada de volta para a vista de origem para reconstruir a máscara de consulta original. Esta restrição bidirecional fornece um forte sinal de auto-supervisão sem exigir anotações de ground-truth e permite o treino durante o teste (test-time training - TTT) na inferência. Experiências nos benchmarks Ego-Exo4D e HANDAL-X demonstram a eficácia do nosso objetivo de otimização e da estratégia TTT, alcançando um desempenho state-of-the-art. O código está disponível em https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.