Селективное синергетическое обучение для объектно-центрированного обучения видео

Аннотация

Типичные подходы к видео-объектно-центрированному обучению (VOCL) используют слотовые архитектуры, основанные на реконструктивно-управляемых структурах кодировщик-декодировщик, где обучение опосредуется двумя пространственными картами: картами внимания от кодировщика и картами объектов от декодировщика. Поскольку эти две различные карты обладают разными свойствами, недавняя стратегия плотного выравнивания попыталась устранить это несоответствие, принуждая к согласованию всех пространственно-временных патчей через контрастное обучение. Однако такое неизбирательное выравнивание непреднамеренно распространяет внутренние слабости каждого модуля, такие как зашумленные предсказания кодировщика и размытые границы декодировщика. Более того, вычисление плотных сходств по всем парам влечет квадратичную вычислительную сложность относительно общего числа пространственно-временных патчей, что резко ограничивает масштабируемость. Исходя из этого, мы предлагаем селективное синергетическое обучение (SSync). Вместо исчерпывающего попарного выравнивания патчей SSync предотвращает распространение ошибок, дистиллируя лишь наиболее надежные сигналы: используя кодировщик строго для уточнения границ, а декодировщик — для устранения шума внутри объектов. Это реализуется с помощью псевдо-маркировки с линейной сложностью, что исключает необходимость квадратичных пространственных сравнений. Кроме того, чтобы избежать усиления архитектурных смещений, таких как избыточность слотов, мы вводим транзитивное объединение псевдо-меток, которое консолидирует перекрывающиеся слоты на основе согласованности пространственно-временной активации. Обширные эксперименты показывают, что SSync улучшает качество декомпозиции, работает как универсальный подключаемый модуль, а также демонстрирует исключительную устойчивость к конфигурациям слотов. Код доступен по ссылке github.com/wjun0830/SSync.

English

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit different properties, a recent dense alignment strategy attempted to reconcile this discrepancy by enforcing agreement across all spatio-temporal patches via contrastive learning. However, this indiscriminate alignment inadvertently propagates the inherent weaknesses of each module, such as noisy encoder predictions and blurred decoder boundaries. Moreover, computing dense similarities across all pairs incurs a computational cost quadratic in the total number of spatio-temporal patches, severely limiting scalability. Motivated by this, we propose Selective Synergistic Learning (SSync). Instead of exhaustive patch-to-patch alignment, SSync prevents error propagation by selectively distilling only the most reliable cues: leveraging the encoder strictly for boundary refinement and the decoder for interior denoising. This is realized via a pseudo-labeling with linear complexity, eliminating the need for quadratic spatial comparisons. Also, to prevent the reinforcement of architectural biases like slot redundancy, we introduce a transitive pseudo-label merging that consolidates overlapping slots based on spatio-temporal activation consistency. Extensive studies demonstrate that SSync improves decomposition quality and serves as a versatile, plug-and-play module while also exhibiting exceptional robustness to slot configurations. Code is available at github.com/wjun0830/SSync.