Apprendimento della corrispondenza di oggetti tra viste mediante predizione di maschere ciclo-consistenti

Abstract

Studiamo il compito di stabilire corrispondenze visive a livello di oggetto tra diverse prospettive in video, concentrandoci sugli scenari complessi di transizione egocentrica-to-esocentrica e esocentrica-to-egocentrica. Proponiamo un framework semplice ma efficace basato sulla segmentazione binaria condizionata, in cui una maschera di query dell'oggetto viene codificata in una rappresentazione latente per guidare la localizzazione dell'oggetto corrispondente in un video target. Per favorire rappresentazioni robuste e invarianti al punto di vista, introduciamo un obiettivo di addestramento a cicli di consistenza: la maschera predetta nella vista target viene proiettata nuovamente nella vista sorgente per ricostruire la maschera di query originale. Questo vincolo bidirezionale fornisce un forte segnale di auto-supervisione senza richiedere annotazioni di verità terreno e abilita l'addestramento al momento del test (TTT) durante l'inferenza. Gli esperimenti sui benchmark Ego-Exo4D e HANDAL-X dimostrano l'efficacia del nostro obiettivo di ottimizzazione e della strategia TTT, raggiungendo prestazioni allo stato dell'arte. Il codice è disponibile all'indirizzo https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.

Apprendimento della corrispondenza di oggetti tra viste mediante predizione di maschere ciclo-consistenti

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Abstract

Support