Currículo de Segmentação Guiado por Reconstrução: Abordando a Superfragmentação de Objetos na Aprendizagem Centrada em Objetos em Vídeo

Resumo

A Aprendizagem Centrada em Objetos em Vídeo busca decompor vídeos brutos em um pequeno conjunto de slots de objetos, mas os modelos existentes baseados em atenção a slots frequentemente sofrem com grave superfragmentação. Isso ocorre porque o modelo é implicitamente incentivado a ocupar todos os slots para minimizar o objetivo de reconstrução, representando assim um único objeto com múltiplos slots redundantes. Nós enfrentamos essa limitação com um currículo de slots guiado por reconstrução (SlotCurri). O treinamento começa com apenas alguns slots grosseiros e aloca progressivamente novos slots onde o erro de reconstrução permanece alto, expandindo assim a capacidade apenas onde é necessário e prevenindo a fragmentação desde o início. No entanto, durante a expansão dos slots, subpartes significativas só podem emergir se a semântica em nível grosseiro já estiver bem separada; contudo, com um orçamento inicial pequeno de slots e um objetivo de Erro Quadrático Médio (MSE), os limites semânticos permanecem difusos. Portanto, aumentamos o MSE com uma função de perda consciente da estrutura que preserva o contraste local e a informação de borda para incentivar cada slot a aperfeiçoar seus limites semânticos. Por fim, propomos uma inferência cíclica que avança os slots e depois os retrocede através da sequência de quadros, produzindo representações de objetos temporalmente consistentes mesmo nos quadros iniciais. Combinadas, as técnicas do SlotCurri abordam a superfragmentação de objetos alocando capacidade representacional onde a reconstrução falha, aprimorada ainda mais por pistas estruturais e pela inferência cíclica. Ganhos notáveis de FG-ARI de +6.8 no YouTube-VIS e +8.3 no MOVi-C validam a eficácia do SlotCurri. Nosso código está disponível em github.com/wjun0830/SlotCurri.

English

Video Object-Centric Learning seeks to decompose raw videos into a small set of object slots, but existing slot-attention models often suffer from severe over-fragmentation. This is because the model is implicitly encouraged to occupy all slots to minimize the reconstruction objective, thereby representing a single object with multiple redundant slots. We tackle this limitation with a reconstruction-guided slot curriculum (SlotCurri). Training starts with only a few coarse slots and progressively allocates new slots where reconstruction error remains high, thus expanding capacity only where it is needed and preventing fragmentation from the outset. Yet, during slot expansion, meaningful sub-parts can emerge only if coarse-level semantics are already well separated; however, with a small initial slot budget and an MSE objective, semantic boundaries remain blurry. Therefore, we augment MSE with a structure-aware loss that preserves local contrast and edge information to encourage each slot to sharpen its semantic boundaries. Lastly, we propose a cyclic inference that rolls slots forward and then backward through the frame sequence, producing temporally consistent object representations even in the earliest frames. All combined, SlotCurri addresses object over-fragmentation by allocating representational capacity where reconstruction fails, further enhanced by structural cues and cyclic inference. Notable FG-ARI gains of +6.8 on YouTube-VIS and +8.3 on MOVi-C validate the effectiveness of SlotCurri. Our code is available at github.com/wjun0830/SlotCurri.