SeC : Faire progresser la segmentation d'objets dans des vidéos complexes grâce à une construction progressive des concepts
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
papers.authors: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
papers.abstract
La segmentation d'objets vidéo (Video Object Segmentation, VOS) est une tâche fondamentale en vision par ordinateur, nécessitant que les modèles suivent et segmentent des objets cibles à travers les images d'une vidéo. Malgré des avancées notables grâce aux efforts récents, les techniques actuelles restent en deçà des capacités humaines pour gérer les variations visuelles drastiques, les occlusions et les changements de scène complexes. Cette limitation découle de leur dépendance à l'appariement d'apparences, négligeant la compréhension conceptuelle des objets, semblable à celle des humains, qui permet une identification robuste à travers les dynamiques temporelles. Motivés par cet écart, nous proposons Segment Concept (SeC), un cadre de segmentation axé sur les concepts qui s'éloigne de l'appariement de caractéristiques conventionnel pour se concentrer sur la construction progressive et l'utilisation de représentations de haut niveau centrées sur les objets. SeC utilise des modèles de vision-langage de grande échelle (Large Vision-Language Models, LVLMs) pour intégrer des indices visuels à travers des images variées, construisant ainsi des préconcepts robustes. Pendant l'inférence, SeC forme une représentation sémantique complète de la cible basée sur les images traitées, permettant une segmentation robuste des images suivantes. De plus, SeC équilibre de manière adaptative le raisonnement sémantique basé sur les LVLMs avec un appariement de caractéristiques amélioré, ajustant dynamiquement les efforts de calcul en fonction de la complexité de la scène. Pour évaluer rigoureusement les méthodes de VOS dans des scénarios exigeant un raisonnement conceptuel de haut niveau et une compréhension sémantique robuste, nous introduisons le benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS comprend 160 vidéos multi-scénarios annotées manuellement, conçues pour mettre les modèles à l'épreuve avec des variations d'apparence substantielles et des transformations de scène dynamiques. En particulier, SeC réalise une amélioration de 11,8 points par rapport à SAM 2.1 sur SeCVOS, établissant un nouvel état de l'art dans la segmentation d'objets vidéo consciente des concepts.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.