Curriculum d'Emplacements Guidé par la Reconstruction : Résoudre la Sur-Fragmentation des Objets dans l'Apprentissage Vidéo Centré sur les Objets

Résumé

L'apprentissage centré sur les objets vidéo vise à décomposer les vidéos brutes en un petit ensemble d'emplacements d'objets (slots), mais les modèles existants basés sur l'attention par slots souffrent souvent d'une sur-fragmentation sévère. Cela s'explique par le fait que le modèle est implicitement incité à occuper tous les slots pour minimiser l'objectif de reconstruction, représentant ainsi un seul objet avec plusieurs slots redondants. Nous abordons cette limitation avec un curriculum de slots guidé par la reconstruction (SlotCurri). L'entraînement commence avec seulement quelques slots grossiers et alloue progressivement de nouveaux slots là où l'erreur de reconstruction reste élevée, étendant ainsi la capacité uniquement là où elle est nécessaire et empêchant la fragmentation dès le départ. Cependant, lors de l'expansion des slots, des sous-parties significatives ne peuvent émerger que si la sémantique de niveau grossier est déjà bien séparée ; or, avec un budget initial réduit de slots et un objectif d'erreur quadratique moyenne (MSE), les frontières sémantiques restent floues. Par conséquent, nous complétons le MSE par une fonction de loss sensible à la structure qui préserve le contraste local et les informations de contour pour encourager chaque slot à affiner ses frontières sémantiques. Enfin, nous proposons une inférence cyclique qui propage les slots vers l'avant puis vers l'arrière à travers la séquence d'images, produisant des représentations d'objets temporellement cohérentes, même dans les images les plus anciennes. Combiné, SlotCurri résout la sur-fragmentation des objets en allouant la capacité de représentation là où la reconstruction échoue, améliorée en outre par des indices structurels et l'inférence cyclique. Des gains notables de +6,8 en FG-ARI sur YouTube-VIS et de +8,3 sur MOVi-C valident l'efficacité de SlotCurri. Notre code est disponible sur github.com/wjun0830/SlotCurri.

English

Video Object-Centric Learning seeks to decompose raw videos into a small set of object slots, but existing slot-attention models often suffer from severe over-fragmentation. This is because the model is implicitly encouraged to occupy all slots to minimize the reconstruction objective, thereby representing a single object with multiple redundant slots. We tackle this limitation with a reconstruction-guided slot curriculum (SlotCurri). Training starts with only a few coarse slots and progressively allocates new slots where reconstruction error remains high, thus expanding capacity only where it is needed and preventing fragmentation from the outset. Yet, during slot expansion, meaningful sub-parts can emerge only if coarse-level semantics are already well separated; however, with a small initial slot budget and an MSE objective, semantic boundaries remain blurry. Therefore, we augment MSE with a structure-aware loss that preserves local contrast and edge information to encourage each slot to sharpen its semantic boundaries. Lastly, we propose a cyclic inference that rolls slots forward and then backward through the frame sequence, producing temporally consistent object representations even in the earliest frames. All combined, SlotCurri addresses object over-fragmentation by allocating representational capacity where reconstruction fails, further enhanced by structural cues and cyclic inference. Notable FG-ARI gains of +6.8 on YouTube-VIS and +8.3 on MOVi-C validate the effectiveness of SlotCurri. Our code is available at github.com/wjun0830/SlotCurri.

Curriculum d'Emplacements Guidé par la Reconstruction : Résoudre la Sur-Fragmentation des Objets dans l'Apprentissage Vidéo Centré sur les Objets

Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Résumé

Support