ChatPaper.aiChatPaper

SeC : Faire progresser la segmentation d'objets dans des vidéos complexes grâce à une construction progressive des concepts

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

July 21, 2025
papers.authors: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

La segmentation d'objets vidéo (Video Object Segmentation, VOS) est une tâche fondamentale en vision par ordinateur, nécessitant que les modèles suivent et segmentent des objets cibles à travers les images d'une vidéo. Malgré des avancées notables grâce aux efforts récents, les techniques actuelles restent en deçà des capacités humaines pour gérer les variations visuelles drastiques, les occlusions et les changements de scène complexes. Cette limitation découle de leur dépendance à l'appariement d'apparences, négligeant la compréhension conceptuelle des objets, semblable à celle des humains, qui permet une identification robuste à travers les dynamiques temporelles. Motivés par cet écart, nous proposons Segment Concept (SeC), un cadre de segmentation axé sur les concepts qui s'éloigne de l'appariement de caractéristiques conventionnel pour se concentrer sur la construction progressive et l'utilisation de représentations de haut niveau centrées sur les objets. SeC utilise des modèles de vision-langage de grande échelle (Large Vision-Language Models, LVLMs) pour intégrer des indices visuels à travers des images variées, construisant ainsi des préconcepts robustes. Pendant l'inférence, SeC forme une représentation sémantique complète de la cible basée sur les images traitées, permettant une segmentation robuste des images suivantes. De plus, SeC équilibre de manière adaptative le raisonnement sémantique basé sur les LVLMs avec un appariement de caractéristiques amélioré, ajustant dynamiquement les efforts de calcul en fonction de la complexité de la scène. Pour évaluer rigoureusement les méthodes de VOS dans des scénarios exigeant un raisonnement conceptuel de haut niveau et une compréhension sémantique robuste, nous introduisons le benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS comprend 160 vidéos multi-scénarios annotées manuellement, conçues pour mettre les modèles à l'épreuve avec des variations d'apparence substantielles et des transformations de scène dynamiques. En particulier, SeC réalise une amélioration de 11,8 points par rapport à SAM 2.1 sur SeCVOS, établissant un nouvel état de l'art dans la segmentation d'objets vidéo consciente des concepts.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring models to track and segment target objects across video frames. Despite notable advances with recent efforts, current techniques still lag behind human capabilities in handling drastic visual variations, occlusions, and complex scene changes. This limitation arises from their reliance on appearance matching, neglecting the human-like conceptual understanding of objects that enables robust identification across temporal dynamics. Motivated by this gap, we propose Segment Concept (SeC), a concept-driven segmentation framework that shifts from conventional feature matching to the progressive construction and utilization of high-level, object-centric representations. SeC employs Large Vision-Language Models (LVLMs) to integrate visual cues across diverse frames, constructing robust conceptual priors. During inference, SeC forms a comprehensive semantic representation of the target based on processed frames, realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively balances LVLM-based semantic reasoning with enhanced feature matching, dynamically adjusting computational efforts based on scene complexity. To rigorously assess VOS methods in scenarios demanding high-level conceptual reasoning and robust semantic understanding, we introduce the Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160 manually annotated multi-scenario videos designed to challenge models with substantial appearance variations and dynamic scene transformations. In particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS, establishing a new state-of-the-art in concept-aware video object segmentation.
PDF331July 22, 2025