Lernen von Objektkorrespondenzen über Ansichten hinweg durch zykluskonsistente Maskenvorhersage

Zusammenfassung

Wir untersuchen die Aufgabe der herstellung objektbezogener visueller Korrespondenzen über verschiedene Blickwinkel in Videos hinweg, mit Fokus auf die anspruchsvollen Szenarien egozentrisch-zu-exozentrisch und exozentrisch-zu-egozentrisch. Wir schlagen ein einfaches, aber effektives Framework auf Basis konditioneller binärer Segmentierung vor, bei dem eine Objekt-Abfragemaske in eine latente Repräsentation kodiert wird, um die Lokalisierung des entsprechenden Objekts in einem Zielvideo zu steuern. Um robuste, blickwinkelinvariante Repräsentationen zu fördern, führen wir ein zyklus-konsistentes Trainingsziel ein: Die vorhergesagte Masse in der Zielansicht wird zurück in die Quellansicht projiziert, um die ursprüngliche Abfragemaske zu rekonstruieren. Diese bidirektionale Beschränkung liefert ein starkes selbstüberwachtes Signal ohne Notwendigkeit von Ground-Truth-Annotationen und ermöglicht Test-Time Training (TTT) während des Inferenzvorgangs. Experimente auf den Benchmarks Ego-Exo4D und HANDAL-X demonstrieren die Wirksamkeit unseres Optimierungsziels und der TTT-Strategie, wobei state-of-the-art Leistung erreicht wird. Der Code ist verfügbar unter https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.

Lernen von Objektkorrespondenzen über Ansichten hinweg durch zykluskonsistente Maskenvorhersage

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Zusammenfassung

Support