Aprendizagem Seletiva Sinérgica para Aprendizagem Centrada em Objetos em Vídeos

Resumo

Abordagens típicas de aprendizado centrado em objetos em vídeo (VOCL) empregam estruturas baseadas em slots que se baseiam em arquiteturas codificador-decodificador orientadas por reconstrução, onde o aprendizado é mediado por dois mapas espaciais: mapas de atenção do codificador e mapas de objetos do decodificador. Como esses dois mapas distintos exibem propriedades diferentes, uma estratégia recente de alinhamento denso tentou reconciliar essa discrepância impondo concordância em todos os patches espaço-temporais via aprendizado contrastivo. No entanto, esse alinhamento indiscriminado propaga inadvertidamente as fraquezas inerentes de cada módulo, como previsões ruidosas do codificador e limites borrados do decodificador. Além disso, calcular similaridades densas entre todos os pares incorre em um custo computacional quadrático no número total de patches espaço-temporais, limitando severamente a escalabilidade. Motivados por isso, propomos o Aprendizado Sinérgico Seletivo (SSync). Em vez de um alinhamento exaustivo patch a patch, o SSync previne a propagação de erros destilando seletivamente apenas as pistas mais confiáveis: utilizando o codificador estritamente para refinamento de limites e o decodificador para remoção de ruído interno. Isso é realizado por meio de uma rotulação pseudo com complexidade linear, eliminando a necessidade de comparações espaciais quadráticas. Além disso, para evitar o reforço de vieses arquitetônicos, como redundância de slots, introduzimos uma fusão pseudo-transitiva de rótulos que consolida slots sobrepostos com base na consistência de ativação espaço-temporal. Estudos extensivos demonstram que o SSync melhora a qualidade da decomposição e atua como um módulo versátil plug-and-play, exibindo também excepcional robustez a configurações de slots. O código está disponível em github.com/wjun0830/SSync.

English

Typical video object-centric learning (VOCL) approaches employ slot-based frameworks that rely on reconstruction-driven encoder-decoder architectures, where learning is mediated by two spatial maps: attention maps from the encoder and object maps from the decoder. As these two distinct maps exhibit different properties, a recent dense alignment strategy attempted to reconcile this discrepancy by enforcing agreement across all spatio-temporal patches via contrastive learning. However, this indiscriminate alignment inadvertently propagates the inherent weaknesses of each module, such as noisy encoder predictions and blurred decoder boundaries. Moreover, computing dense similarities across all pairs incurs a computational cost quadratic in the total number of spatio-temporal patches, severely limiting scalability. Motivated by this, we propose Selective Synergistic Learning (SSync). Instead of exhaustive patch-to-patch alignment, SSync prevents error propagation by selectively distilling only the most reliable cues: leveraging the encoder strictly for boundary refinement and the decoder for interior denoising. This is realized via a pseudo-labeling with linear complexity, eliminating the need for quadratic spatial comparisons. Also, to prevent the reinforcement of architectural biases like slot redundancy, we introduce a transitive pseudo-label merging that consolidates overlapping slots based on spatio-temporal activation consistency. Extensive studies demonstrate that SSync improves decomposition quality and serves as a versatile, plug-and-play module while also exhibiting exceptional robustness to slot configurations. Code is available at github.com/wjun0830/SSync.