SeC: Fortschritt in der komplexen Videoobjektsegmentierung durch progressive Konzeptkonstruktion
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
papers.authors: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
papers.abstract
Video Object Segmentation (VOS) ist eine Kernaufgabe in der Computer Vision, bei der Modelle Zielobjekte über Videoframes hinweg verfolgen und segmentieren müssen. Trotz bemerkenswerter Fortschritte durch aktuelle Bemühungen hinken die derzeitigen Techniken den menschlichen Fähigkeiten bei der Bewältigung drastischer visueller Variationen, Verdeckungen und komplexer Szenenveränderungen noch hinterher. Diese Einschränkung ergibt sich aus ihrer Abhängigkeit von der Erscheinungsbildabgleichung, wobei das menschliche konzeptuelle Verständnis von Objekten, das eine robuste Identifikation über zeitliche Dynamiken hinweg ermöglicht, vernachlässigt wird. Motiviert durch diese Lücke schlagen wir Segment Concept (SeC) vor, ein konzeptgetriebenes Segmentierungsframework, das von der herkömmlichen Merkmalsabgleichung zur progressiven Konstruktion und Nutzung von hochwertigen, objektzentrierten Repräsentationen übergeht. SeC setzt Large Vision-Language Models (LVLMs) ein, um visuelle Hinweise über verschiedene Frames hinweg zu integrieren und robuste konzeptuelle Prioritäten zu konstruieren. Während der Inferenz bildet SeC eine umfassende semantische Repräsentation des Ziels basierend auf verarbeiteten Frames, wodurch eine robuste Segmentierung nachfolgender Frames realisiert wird. Darüber hinaus balanciert SeC adaptiv die LVLM-basierte semantische Argumentation mit verbesserter Merkmalsabgleichung und passt die Rechenaufwand dynamisch basierend auf der Szenenkomplexität an. Um VOS-Methoden rigoros in Szenarien zu bewerten, die hochwertige konzeptuelle Argumentation und robustes semantisches Verständnis erfordern, führen wir den Semantic Complex Scenarios Video Object Segmentation Benchmark (SeCVOS) ein. SeCVOS umfasst 160 manuell annotierte Multiszenario-Videos, die darauf ausgelegt sind, Modelle mit erheblichen Erscheinungsbildvariationen und dynamischen Szenentransformationen herauszufordern. Insbesondere erzielt SeC eine Verbesserung von 11,8 Punkten gegenüber SAM 2.1 auf SeCVOS und setzt damit einen neuen Maßstab in der konzeptbewussten Video Object Segmentation.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.