Aprendizaje de Correspondencia de Objetos entre Vistas mediante Predicción de Máscaras Cíclicamente Consistente

Resumen

Estudiamos la tarea de establecer correspondencia visual a nivel de objetos entre diferentes puntos de vista en videos, centrándonos en los escenarios desafiantes de egocéntrica-a-exocéntrica y exocéntrica-a-egocéntrica. Proponemos un marco simple pero efectivo basado en segmentación binaria condicional, donde una máscara de consulta de objeto se codifica en una representación latente para guiar la localización del objeto correspondiente en un video objetivo. Para fomentar representaciones robustas e invariantes al punto de vista, introducimos un objetivo de entrenamiento de consistencia cíclica: la máscara pronosticada en la vista objetivo se proyecta de vuelta a la vista fuente para reconstruir la máscara de consulta original. Esta restricción bidireccional proporciona una fuerte señal de auto-supervisión sin requerir anotaciones de referencia y permite el entrenamiento en tiempo de prueba (TTT) durante la inferencia. Los experimentos en los benchmarks Ego-Exo4D y HANDAL-X demuestran la efectividad de nuestro objetivo de optimización y la estrategia TTT, logrando un rendimiento de vanguardia. El código está disponible en https://github.com/shannany0606/CCMP.

English

We study the task of establishing object-level visual correspondence across different viewpoints in videos, focusing on the challenging egocentric-to-exocentric and exocentric-to-egocentric scenarios. We propose a simple yet effective framework based on conditional binary segmentation, where an object query mask is encoded into a latent representation to guide the localization of the corresponding object in a target video. To encourage robust, view-invariant representations, we introduce a cycle-consistency training objective: the predicted mask in the target view is projected back to the source view to reconstruct the original query mask. This bidirectional constraint provides a strong self-supervisory signal without requiring ground-truth annotations and enables test-time training (TTT) at inference. Experiments on the Ego-Exo4D and HANDAL-X benchmarks demonstrate the effectiveness of our optimization objective and TTT strategy, achieving state-of-the-art performance. The code is available at https://github.com/shannany0606/CCMP.

Aprendizaje de Correspondencia de Objetos entre Vistas mediante Predicción de Máscaras Cíclicamente Consistente

Learning Cross-View Object Correspondence via Cycle-Consistent Mask Prediction

Resumen

Support