Обучение перекрёстному соответствию объектов с помощью цикл-согласованного предсказания масок

Аннотация

Мы исследуем задачу установления визуального соответствия на уровне объектов между различными точками обзора в видео, уделяя особое внимание сложным сценариям перехода от эгоцентрического к экзоцентрическому виду и наоборот. Предлагается простая, но эффективная архитектура на основе условной бинарной сегментации, в которой маска запрашиваемого объекта кодируется в латентное представление для локализации соответствующего объекта в целевом видео. Для формирования устойчивых, инвариантных к точке обзора представлений вводится цель обучения циклической согласованности: предсказанная маска в целевом виде проецируется обратно в исходный вид для реконструкции исходной маски запроса. Это двунаправленное ограничение создает сильный сигнал самоконтроля без необходимости разметки и позволяет применять обучение на этапе тестирования (test-time training, TTT) во время вывода. Эксперименты на наборах данных Ego-Exo4D и HANDAL-X демонстрируют эффективность нашего подхода к оптимизации и стратегии TTT, достигая наилучших результатов на текущий момент. Код доступен по адресу https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.

Обучение перекрёстному соответствию объектов с помощью цикл-согласованного предсказания масок

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Аннотация

Support