Leren van kruisbeeldobjectcorrespondentie via cyclisch consistente maskervoorspelling
Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction
February 22, 2026
Auteurs: Shannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao
cs.AI
Samenvatting
Wij bestuderen de taak van het vaststellen van object-level visuele correspondentie tussen verschillende gezichtspunten in video's, met een focus op de uitdagende egocentrisch-naar-exocentrisch en exocentrisch-naar-egocentrisch scenario's. Wij stellen een eenvoudig maar effectief raamwerk voor, gebaseerd op conditionele binaire segmentatie, waarbij een objectquerymasker wordt gecodeerd in een latente representatie om de lokalisatie van het corresponderende object in een doelfilm te sturen. Om robuuste, view-invariante representaties te bevorderen, introduceren we een cyclusconsistentie-trainingsdoel: het voorspelde masker in het doelbeeld wordt teruggeprojecteerd naar het bronbeeld om het oorspronkelijke querymasker te reconstrueren. Deze bidirectionele constraint voorziet in een sterke zelfsuperviserende signaal zonder grondwaarannotaties te vereisen en maakt test-time training (TTT) mogelijk tijdens inferentie. Experimenten op de Ego-Exo4D en HANDAL-X benchmarks tonen de effectiviteit van onze optimalisatiedoelstelling en TTT-strategie aan, waarbij state-of-the-art prestaties worden behaald. De code is beschikbaar op https://github.com/shannany0606/CCMP.
English
We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.