Aprendizaje Sinérgico Selectivo para el Aprendizaje Centrado en Objetos en Video

Resumen

Los enfoques típicos de aprendizaje centrado en objetos en video (VOCL) emplean marcos basados en slots que dependen de arquitecturas codificador-decodificador impulsadas por reconstrucción, donde el aprendizaje se media mediante dos mapas espaciales: mapas de atención del codificador y mapas de objetos del decodificador. Dado que estos dos mapas distintos exhiben propiedades diferentes, una estrategia reciente de alineación densa intentó reconciliar esta discrepancia imponiendo concordancia en todos los parches espacio-temporales mediante aprendizaje contrastivo. Sin embargo, esta alineación indiscriminada propaga inadvertidamente las debilidades inherentes de cada módulo, como predicciones ruidosas del codificador y límites borrosos del decodificador. Además, el cálculo de similitudes densas entre todos los pares conlleva un costo computacional cuadrático en el número total de parches espacio-temporales, lo que limita severamente la escalabilidad. Motivados por esto, proponemos Aprendizaje Sinérgico Selectivo (SSync). En lugar de una alineación exhaustiva parche a parche, SSync previene la propagación de errores destilando selectivamente solo las señales más confiables: aprovechando el codificador estrictamente para el refinamiento de bordes y el decodificador para la eliminación de ruido interno. Esto se logra mediante un pseudoetiquetado con complejidad lineal, eliminando la necesidad de comparaciones espaciales cuadráticas. Además, para evitar el refuerzo de sesgos arquitectónicos como la redundancia de slots, introducimos una fusión transitiva de pseudoetiquetas que consolida slots superpuestos basándose en la consistencia de activación espacio-temporal. Estudios exhaustivos demuestran que SSync mejora la calidad de descomposición y funciona como un módulo versátil y de conexión directa, exhibiendo también una robustez excepcional frente a configuraciones de slots. El código está disponible en github.com/wjun0830/SSync.

English

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit different properties, a recent dense alignment strategy attempted to reconcile this discrepancy by enforcing agreement across all spatio-temporal patches via contrastive learning. However, this indiscriminate alignment inadvertently propagates the inherent weaknesses of each module, such as noisy encoder predictions and blurred decoder boundaries. Moreover, computing dense similarities across all pairs incurs a computational cost quadratic in the total number of spatio-temporal patches, severely limiting scalability. Motivated by this, we propose Selective Synergistic Learning (SSync). Instead of exhaustive patch-to-patch alignment, SSync prevents error propagation by selectively distilling only the most reliable cues: leveraging the encoder strictly for boundary refinement and the decoder for interior denoising. This is realized via a pseudo-labeling with linear complexity, eliminating the need for quadratic spatial comparisons. Also, to prevent the reinforcement of architectural biases like slot redundancy, we introduce a transitive pseudo-label merging that consolidates overlapping slots based on spatio-temporal activation consistency. Extensive studies demonstrate that SSync improves decomposition quality and serves as a versatile, plug-and-play module while also exhibiting exceptional robustness to slot configurations. Code is available at github.com/wjun0830/SSync.