Реконструкционно-направленный поурочный план слотов: решение проблемы избыточной фрагментации объектов в видеоцентричном обучении

Аннотация

Обучение с объектно-ориентированным представлением видео (Video Object-Centric Learning) ставит целью декомпозицию исходных видеозаписей на небольшой набор объектных слотов, однако существующие модели со слотовым вниманием часто страдают от сильной перефрагментации. Это происходит потому, что модель неявно побуждается занимать все слоты для минимизации реконструкционной цели, тем самым представляя один объект с помощью нескольких избыточных слотов. Мы преодолеваем это ограничение с помощью реконструкционно-направленного слотового учебного плана (SlotCurri). Обучение начинается всего с несколькими грубыми слотами и постепенно выделяет новые слоты в тех областях, где ошибка реконструкции остается высокой, тем самым расширяя возможности только там, где это необходимо, и предотвращая фрагментацию с самого начала. Однако при расширении слотов значимые подчасти могут появиться только в том случае, если семантика на грубом уровне уже хорошо разделена; но при небольшом начальном бюджете слотов и цели MSE семантические границы остаются размытыми. Поэтому мы дополняем MSE структурно-ориентированной функцией потерь, которая сохраняет локальный контраст и информацию о границах, чтобы побудить каждый слот уточнять свои семантические границы. Наконец, мы предлагаем циклический вывод, который продвигает слоты вперед, а затем назад по последовательности кадров, создавая временно-согласованные объектные представления даже в самых ранних кадрах. В совокупности SlotCurri решает проблему перефрагментации объектов, распределяя репрезентационную мощность там, где реконструкция терпит неудачу, с дополнительным усилением за счет структурных сигналов и циклического вывода. Значительные улучшения FG-ARI на +6.8 для YouTube-VIS и +8.3 для MOVi-C подтверждают эффективность SlotCurri. Наш код доступен по адресу github.com/wjun0830/SlotCurri.

English

Video Object-Centric Learning seeks to decompose raw videos into a small set of object slots, but existing slot-attention models often suffer from severe over-fragmentation. This is because the model is implicitly encouraged to occupy all slots to minimize the reconstruction objective, thereby representing a single object with multiple redundant slots. We tackle this limitation with a reconstruction-guided slot curriculum (SlotCurri). Training starts with only a few coarse slots and progressively allocates new slots where reconstruction error remains high, thus expanding capacity only where it is needed and preventing fragmentation from the outset. Yet, during slot expansion, meaningful sub-parts can emerge only if coarse-level semantics are already well separated; however, with a small initial slot budget and an MSE objective, semantic boundaries remain blurry. Therefore, we augment MSE with a structure-aware loss that preserves local contrast and edge information to encourage each slot to sharpen its semantic boundaries. Lastly, we propose a cyclic inference that rolls slots forward and then backward through the frame sequence, producing temporally consistent object representations even in the earliest frames. All combined, SlotCurri addresses object over-fragmentation by allocating representational capacity where reconstruction fails, further enhanced by structural cues and cyclic inference. Notable FG-ARI gains of +6.8 on YouTube-VIS and +8.3 on MOVi-C validate the effectiveness of SlotCurri. Our code is available at github.com/wjun0830/SlotCurri.

Реконструкционно-направленный поурочный план слотов: решение проблемы избыточной фрагментации объектов в видеоцентричном обучении

Reconstruction-Guided Slot Curriculum: Addressing Object Over-Fragmentation in Video Object-Centric Learning

Аннотация

Support