SeC: Vooruitgang in Complexe Video Object Segmentatie via Progressieve Conceptconstructie
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
Auteurs: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Video Object Segmentation (VOS) is een kerntaak in computervisie, waarbij modellen doelobjecten moeten volgen en segmenteren over videoframes. Ondanks aanzienlijke vooruitgang door recente inspanningen, blijven huidige technieken achter bij menselijke capaciteiten in het omgaan met drastische visuele variaties, occlusies en complexe scènewijzigingen. Deze beperking ontstaat door hun afhankelijkheid van uiterlijke overeenkomsten, waarbij het mensachtige conceptuele begrip van objecten dat robuuste identificatie over temporele dynamiek mogelijk maakt, wordt verwaarloosd. Gemotiveerd door deze kloof, stellen we Segment Concept (SeC) voor, een conceptgedreven segmentatieraamwerk dat verschuift van conventionele kenmerkmatching naar de progressieve constructie en benutting van hoogwaardige, objectgerichte representaties. SeC maakt gebruik van Large Vision-Language Models (LVLMs) om visuele aanwijzingen over diverse frames te integreren, waardoor robuuste conceptuele prioriteiten worden geconstrueerd. Tijdens inferentie vormt SeC een uitgebreide semantische representatie van het doelobject op basis van verwerkte frames, waardoor robuuste segmentatie van vervolgframes wordt gerealiseerd. Bovendien balanceert SeC adaptief LVLM-gebaseerde semantische redenering met verbeterde kenmerkmatching, waarbij rekeninspanningen dynamisch worden aangepast op basis van scènecomplexiteit. Om VOS-methoden rigoureus te evalueren in scenario's die hoogwaardige conceptuele redenering en robuust semantisch begrip vereisen, introduceren we de Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS bestaat uit 160 handmatig geannoteerde multi-scènariovideo's die ontworpen zijn om modellen uit te dagen met aanzienlijke uiterlijke variaties en dynamische scènetransformaties. In het bijzonder behaalt SeC een verbetering van 11,8 punten ten opzichte van SAM 2.1 op SeCVOS, waarmee een nieuwe state-of-the-art wordt gevestigd in conceptbewuste video-objectsegmentatie.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.