Обучение перекрёстному соответствию объектов с помощью цикл-согласованного предсказания масок
Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction
February 22, 2026
Авторы: Shannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao
cs.AI
Аннотация
Мы исследуем задачу установления визуального соответствия на уровне объектов между различными точками обзора в видео, уделяя особое внимание сложным сценариям перехода от эгоцентрического к экзоцентрическому виду и наоборот. Предлагается простая, но эффективная архитектура на основе условной бинарной сегментации, в которой маска запрашиваемого объекта кодируется в латентное представление для локализации соответствующего объекта в целевом видео. Для формирования устойчивых, инвариантных к точке обзора представлений вводится цель обучения циклической согласованности: предсказанная маска в целевом виде проецируется обратно в исходный вид для реконструкции исходной маски запроса. Это двунаправленное ограничение создает сильный сигнал самоконтроля без необходимости разметки и позволяет применять обучение на этапе тестирования (test-time training, TTT) во время вывода. Эксперименты на наборах данных Ego-Exo4D и HANDAL-X демонстрируют эффективность нашего подхода к оптимизации и стратегии TTT, достигая наилучших результатов на текущий момент. Код доступен по адресу https://github.com/shannany0606/CCMP.
English
We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.