SeC: Avanzamento della Segmentazione di Oggetti Complessi nei Video attraverso la Costruzione Progressiva di Concetti
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
Autori: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
La Segmentazione di Oggetti Video (Video Object Segmentation, VOS) è un compito fondamentale nella visione artificiale, che richiede ai modelli di tracciare e segmentare oggetti target attraverso i fotogrammi di un video. Nonostante i notevoli progressi ottenuti con gli sforzi recenti, le tecniche attuali rimangono ancora inferiori alle capacità umane nel gestire variazioni visive drastiche, occlusioni e cambiamenti complessi della scena. Questa limitazione deriva dalla loro dipendenza dalla corrispondenza di aspetto, trascurando la comprensione concettuale simile a quella umana degli oggetti, che consente un'identificazione robusta attraverso le dinamiche temporali. Motivati da questo divario, proponiamo Segment Concept (SeC), un framework di segmentazione guidato da concetti che si sposta dalla tradizionale corrispondenza di feature alla costruzione progressiva e all'utilizzo di rappresentazioni di alto livello centrate sugli oggetti. SeC impiega Modelli Visione-Linguaggio di Grande Scala (Large Vision-Language Models, LVLMs) per integrare indizi visivi attraverso fotogrammi diversi, costruendo prior concettuali robusti. Durante l'inferenza, SeC forma una rappresentazione semantica completa del target basata sui fotogrammi elaborati, realizzando una segmentazione robusta dei fotogrammi successivi. Inoltre, SeC bilancia in modo adattivo il ragionamento semantico basato su LVLM con una corrispondenza di feature potenziata, regolando dinamicamente gli sforzi computazionali in base alla complessità della scena. Per valutare rigorosamente i metodi VOS in scenari che richiedono un ragionamento concettuale di alto livello e una comprensione semantica robusta, introduciamo il benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS comprende 160 video multi-scenario annotati manualmente, progettati per mettere alla prova i modelli con variazioni sostanziali di aspetto e trasformazioni dinamiche della scena. In particolare, SeC ottiene un miglioramento di 11,8 punti rispetto a SAM 2.1 su SeCVOS, stabilendo un nuovo stato dell'arte nella segmentazione di oggetti video consapevole dei concetti.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.