ChatPaper.aiChatPaper

SeC: 점진적 개념 구축을 통한 복잡한 비디오 객체 분할 기술의 발전

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

July 21, 2025
저자: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

초록

비디오 객체 분할(Video Object Segmentation, VOS)은 컴퓨터 비전의 핵심 과제로, 모델이 비디오 프레임 간에 대상 객체를 추적하고 분할할 것을 요구합니다. 최근의 노력으로 인해 상당한 진전이 있었음에도 불구하고, 현재의 기술은 급격한 시각적 변화, 가려짐, 복잡한 장면 변화를 다루는 데 있어 여전히 인간의 능력에 미치지 못합니다. 이러한 한계는 외형 매칭에 의존함으로써 발생하며, 시간적 동역학에 걸쳐 강력한 식별을 가능하게 하는 인간과 같은 객체에 대한 개념적 이해를 소홀히 합니다. 이러한 격차를 동기로, 우리는 기존의 특징 매칭에서 벗어나 고차원적이고 객체 중심의 표현을 점진적으로 구축하고 활용하는 개념 주도 분할 프레임워크인 Segment Concept(SeC)를 제안합니다. SeC는 대규모 시각-언어 모델(Large Vision-Language Models, LVLMs)을 활용하여 다양한 프레임 간의 시각적 단서를 통합하고, 강력한 개념적 사전 정보를 구축합니다. 추론 과정에서 SeC는 처리된 프레임을 기반으로 대상에 대한 포괄적인 의미 표현을 형성함으로써 후속 프레임의 강력한 분할을 실현합니다. 더 나아가, SeC는 LVLM 기반의 의미 추론과 향상된 특징 매칭을 적응적으로 균형 잡으며, 장면 복잡도에 따라 계산 노력을 동적으로 조정합니다. 고차원적 개념 추론과 강력한 의미 이해를 요구하는 시나리오에서 VOS 방법을 엄격히 평가하기 위해, 우리는 의미적 복합 시나리오 비디오 객체 분할 벤치마크(Semantic Complex Scenarios Video Object Segmentation benchmark, SeCVOS)를 도입했습니다. SeCVOS는 상당한 외형 변화와 동적 장면 변환을 통해 모델에 도전하도록 설계된 160개의 수동 주석이 달린 다중 시나리오 비디오로 구성됩니다. 특히, SeC는 SeCVOS에서 SAM 2.1 대비 11.8점의 향상을 달성하며, 개념 인식 비디오 객체 분할 분야에서 새로운 최첨단 기술을 확립했습니다.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring models to track and segment target objects across video frames. Despite notable advances with recent efforts, current techniques still lag behind human capabilities in handling drastic visual variations, occlusions, and complex scene changes. This limitation arises from their reliance on appearance matching, neglecting the human-like conceptual understanding of objects that enables robust identification across temporal dynamics. Motivated by this gap, we propose Segment Concept (SeC), a concept-driven segmentation framework that shifts from conventional feature matching to the progressive construction and utilization of high-level, object-centric representations. SeC employs Large Vision-Language Models (LVLMs) to integrate visual cues across diverse frames, constructing robust conceptual priors. During inference, SeC forms a comprehensive semantic representation of the target based on processed frames, realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively balances LVLM-based semantic reasoning with enhanced feature matching, dynamically adjusting computational efforts based on scene complexity. To rigorously assess VOS methods in scenarios demanding high-level conceptual reasoning and robust semantic understanding, we introduce the Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160 manually annotated multi-scenario videos designed to challenge models with substantial appearance variations and dynamic scene transformations. In particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS, establishing a new state-of-the-art in concept-aware video object segmentation.
PDF331July 22, 2025