Selektives synergistisches Lernen für videobasiertes objektzentriertes Lernen

Zusammenfassung

Typische Ansätze des videobasierten objekttentrierten Lernens (VOCL) verwenden Slot-basierte Frameworks, die auf reconstructiongetriebenen Encoder-Decoder-Architekturen beruhen, wobei das Lernen durch zwei räumliche Karten vermittelt wird: Aufmerksamkeitskarten vom Encoder und Objektkarten vom Decoder. Da diese beiden unterschiedlichen Karten verschiedene Eigenschaften aufweisen, versuchte eine neuere Strategie der dichten Ausrichtung, diese Diskrepanz zu beheben, indem sie eine Übereinstimmung über alle räumlich-zeitlichen Patches hinweg durch kontrastives Lernen erzwingt. Diese unterschiedslose Ausrichtung propagiert jedoch unbeabsichtigt die inhärenten Schwächen jedes Moduls, wie verrauschte Encoder-Vorhersagen und unscharfe Decoder-Grenzen. Darüber hinaus verursacht die Berechnung dichter Ähnlichkeiten über alle Paare hinweg einen quadratischen Rechenaufwand in Bezug auf die Gesamtzahl der räumlich-zeitlichen Patches, was die Skalierbarkeit stark einschränkt. Motiviert durch diese Probleme schlagen wir Selective Synergistic Learning (SSync) vor. Anstatt einer erschöpfenden Patch-zu-Patch-Ausrichtung verhindert SSync die Fehlerfortpflanzung, indem es nur die zuverlässigsten Hinweise selektiv destilliert: Der Encoder wird strikt zur Kantenverfeinerung und der Decoder zur internen Entrauschung genutzt. Dies wird durch eine Pseudo-Markierung mit linearer Komplexität realisiert, wodurch quadratische räumliche Vergleiche überflüssig werden. Um zudem die Verstärkung architekturbedingter Verzerrungen wie Slot-Redundanz zu vermeiden, führen wir eine transitive Pseudo-Markierungszusammenführung ein, die überlappende Slots auf Basis der räumlich-zeitlichen Aktivierungskonsistenz konsolidiert. Umfangreiche Studien zeigen, dass SSync die Dekompositionsqualität verbessert und als vielseitiges, modulares Plug-and-Play-Modul dient, während es zudem eine außergewöhnliche Robustheit gegenüber Slot-Konfigurationen aufweist. Der Code ist verfügbar unter github.com/wjun0830/SSync.

English

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit different properties, a recent dense alignment strategy attempted to reconcile this discrepancy by enforcing agreement across all spatio-temporal patches via contrastive learning. However, this indiscriminate alignment inadvertently propagates the inherent weaknesses of each module, such as noisy encoder predictions and blurred decoder boundaries. Moreover, computing dense similarities across all pairs incurs a computational cost quadratic in the total number of spatio-temporal patches, severely limiting scalability. Motivated by this, we propose Selective Synergistic Learning (SSync). Instead of exhaustive patch-to-patch alignment, SSync prevents error propagation by selectively distilling only the most reliable cues: leveraging the encoder strictly for boundary refinement and the decoder for interior denoising. This is realized via a pseudo-labeling with linear complexity, eliminating the need for quadratic spatial comparisons. Also, to prevent the reinforcement of architectural biases like slot redundancy, we introduce a transitive pseudo-label merging that consolidates overlapping slots based on spatio-temporal activation consistency. Extensive studies demonstrate that SSync improves decomposition quality and serves as a versatile, plug-and-play module while also exhibiting exceptional robustness to slot configurations. Code is available at github.com/wjun0830/SSync.