Apprentissage Synergique Sélectif pour l'Apprentissage Centré sur les Objets dans les Vidéos

Résumé

Les approches typiques d'apprentissage centré sur les objets vidéo (VOCL) utilisent des cadres basés sur des slots qui reposent sur des architectures encodeur-décodeur pilotées par reconstruction, où l'apprentissage est médié par deux cartes spatiales : les cartes d'attention de l'encodeur et les cartes d'objets du décodeur. Ces deux cartes distinctes présentant des propriétés différentes, une récente stratégie d'alignement dense a tenté de réconcilier cette divergence en imposant un accord sur l'ensemble des patches spatio-temporels via l'apprentissage contrastif. Cependant, cet alignement indiscriminé propage par inadvertance les faiblesses inhérentes à chaque module, telles que les prédictions bruyantes de l'encodeur et les limites floues du décodeur. De plus, le calcul de similarités denses sur toutes les paires entraîne un coût de calcul quadratique par rapport au nombre total de patches spatio-temporels, ce qui limite sévèrement la passage à l'échelle. Motivés par cela, nous proposons l'Apprentissage Synergique Sélectif (SSync). Au lieu d'un alignement exhaustif patch par patch, SSync empêche la propagation d'erreurs en distillant sélectivement uniquement les indicateurs les plus fiables : en exploitant l'encodeur strictement pour le raffinement des contours et le décodeur pour le débruitage intérieur. Ceci est réalisé via un pseudo-étiquetage à complexité linéaire, éliminant le besoin de comparaisons spatiales quadratiques. De plus, pour éviter le renforcement de biais architecturaux tels que la redondance des slots, nous introduisons une fusion transitive de pseudo-étiquettes qui consolide les slots chevauchants en fonction de la cohérence d'activation spatio-temporelle. Des études approfondies montrent que SSync améliore la qualité de décomposition et constitue un module polyvalent, prêt à l'emploi et enfichable à chaud, tout en faisant preuve d'une robustesse exceptionnelle aux configurations de slots. Le code est disponible sur github.com/wjun0830/SSync.

English

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit different properties, a recent dense alignment strategy attempted to reconcile this discrepancy by enforcing agreement across all spatio-temporal patches via contrastive learning. However, this indiscriminate alignment inadvertently propagates the inherent weaknesses of each module, such as noisy encoder predictions and blurred decoder boundaries. Moreover, computing dense similarities across all pairs incurs a computational cost quadratic in the total number of spatio-temporal patches, severely limiting scalability. Motivated by this, we propose Selective Synergistic Learning (SSync). Instead of exhaustive patch-to-patch alignment, SSync prevents error propagation by selectively distilling only the most reliable cues: leveraging the encoder strictly for boundary refinement and the decoder for interior denoising. This is realized via a pseudo-labeling with linear complexity, eliminating the need for quadratic spatial comparisons. Also, to prevent the reinforcement of architectural biases like slot redundancy, we introduce a transitive pseudo-label merging that consolidates overlapping slots based on spatio-temporal activation consistency. Extensive studies demonstrate that SSync improves decomposition quality and serves as a versatile, plug-and-play module while also exhibiting exceptional robustness to slot configurations. Code is available at github.com/wjun0830/SSync.