Apprentissage de la correspondance d'objets en vue croisée via la prédiction de masques cycliquement cohérents

Résumé

Nous étudions la tâche d'établissement de correspondances visuelles au niveau objet entre différentes perspectives dans des vidéos, en nous concentrant sur les scénarios difficiles de correspondance égocentrique-à-exocentrique et exocentrique-à-égocentrique. Nous proposons un cadre simple mais efficace basé sur la segmentation binaire conditionnelle, où un masque de requête objet est encodé en une représentation latente pour guider la localisation de l'objet correspondant dans une vidéo cible. Pour favoriser des représentations robustes et invariantes à la vue, nous introduisons un objectif d'entraînement par cohérence cyclique : le masque prédit dans la vue cible est projeté vers la vue source pour reconstruire le masque de requête original. Cette contrainte bidirectionnelle fournit un signal d'auto-supervision puissant sans nécessiter d'annotations de vérité terrain et permet un entraînement au moment de l'inférence (test-time training, TTT). Les expériences sur les benchmarks Ego-Exo4D et HANDAL-X démontrent l'efficacité de notre objectif d'optimisation et de notre stratégie TTT, atteignant des performances à l'état de l'art. Le code est disponible à l'adresse https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.

Apprentissage de la correspondance d'objets en vue croisée via la prédiction de masques cycliquement cohérents

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Résumé

Support