ChatPaper.aiChatPaper

사이클 일관성 마스크 예측을 통한 교차 뷰 객체 대응 학습

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

February 22, 2026
저자: Shannan Yan, Leqi Zheng, Keyu Lv, Jingchen Ni, Hongyang Wei, Jiajun Zhang, Guangting Wang, Jing Lyu, Chun Yuan, Fengyun Rao
cs.AI

초록

본 연구는 비디오 내 서로 다른 시점 간 객체 수준 시각적 대응 관계 구축 과업을 다루며, 특히 어려운 1인칭-3인칭 및 3인칭-1인칭 시나리오에 초점을 맞춥니다. 우리는 조건부 이진 분할 기반의 간단하지만 효과적인 프레임워크를 제안하는데, 여기서 객체 쿼리 마스크가 잠재 표현으로 인코딩되어 대상 비디오에서 해당 객체의 위치를 안내합니다. 강건하고 시점 불변 표현을 장려하기 위해 순환 일관성 훈련 목표를 도입했습니다: 대상 시점에서 예측된 마스크는 원본 쿼리 마스크를 재구성하기 위해 소스 시점으로 역투영됩니다. 이 양방향 제약은 실제 정답 주석 없이도 강력한 자기 지도 신호를 제공하며 추론 시 테스트 타임 훈련(TTT)을 가능하게 합니다. Ego-Exo4D 및 HANDAL-X 벤치마크에서의 실험은 우리의 최적화 목표와 TTT 전략의 효과성을 입증하며 최첨단 성능을 달성했습니다. 코드는 https://github.com/shannany0606/CCMP에서 확인할 수 있습니다.
English
We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.
PDF131February 25, 2026