再構成誘導型スロットカリキュラム:ビデオオブジェクト中心学習におけるオブジェクトの過剰断片化問題への対応
Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning
March 24, 2026
著者: WonJun Moon, Hyun Seok Seong, Jae-Pil Heo
cs.AI
要旨
Video Object-Centric Learningは、生の動画を少数のオブジェクトスロットに分解することを目指すが、既存のスロットアテンションモデルは深刻な過剰分割に悩まされることが多い。これは、再構成目的関数を最小化するためにモデルが暗黙的に全てのスロットを使用することが促され、結果として単一のオブジェクトが複数の冗長なスロットで表現されるためである。我々はこの制限を、再構成誘導型スロットカリキュラム(SlotCurri)によって解決する。トレーニングは少数の粗いスロットのみで開始し、再構成誤差が高いままの領域に新しいスロットを段階的に割り当てることで、必要な場所にのみ表現能力を拡大し、最初から過剰分割を防止する。しかし、スロット拡張の過程で意味のある部分構造が出現するためには、粗いレベルでの意味論が既に良く分離されている必要がある。しかし、初期スロット数が少なくMSE目的関数を使用する場合、意味論的境界は曖昧なままである。そこで我々は、局所的なコントラストとエッジ情報を保持する構造認識損失をMSEに追加し、各スロットがその意味論的境界を鮮明化することを促進する。最後に、フレームシーケンスを順方向・逆方向にスロットを伝播させる循環推論を提案し、最初のフレームであっても時間的に一貫したオブジェクト表現を生成する。これらを組み合わせることで、SlotCurriは再構成が失敗する領域に表現能力を割り当てることでオブジェクトの過剰分割に対処し、構造的手がかりと循環推論によってさらに強化される。YouTube-VISで+6.8、MOVi-Cで+8.3という顕著なFG-ARIの向上は、SlotCurriの有効性を実証している。コードはgithub.com/wjun0830/SlotCurriで公開されている。
English
Video Object-Centric Learning seeks to decompose raw videos into a small set of object slots, but existing slot-attention models often suffer from severe over-fragmentation. This is because the model is implicitly encouraged to occupy all slots to minimize the reconstruction objective, thereby representing a single object with multiple redundant slots. We tackle this limitation with a reconstruction-guided slot curriculum (SlotCurri). Training starts with only a few coarse slots and progressively allocates new slots where reconstruction error remains high, thus expanding capacity only where it is needed and preventing fragmentation from the outset. Yet, during slot expansion, meaningful sub-parts can emerge only if coarse-level semantics are already well separated; however, with a small initial slot budget and an MSE objective, semantic boundaries remain blurry. Therefore, we augment MSE with a structure-aware loss that preserves local contrast and edge information to encourage each slot to sharpen its semantic boundaries. Lastly, we propose a cyclic inference that rolls slots forward and then backward through the frame sequence, producing temporally consistent object representations even in the earliest frames. All combined, SlotCurri addresses object over-fragmentation by allocating representational capacity where reconstruction fails, further enhanced by structural cues and cyclic inference. Notable FG-ARI gains of +6.8 on YouTube-VIS and +8.3 on MOVi-C validate the effectiveness of SlotCurri. Our code is available at github.com/wjun0830/SlotCurri.