ChatPaper.aiChatPaper

SeC: Avançando na Segmentação de Objetos em Vídeos Complexos por meio da Construção Progressiva de Conceitos

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

July 21, 2025
Autores: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Resumo

A Segmentação de Objetos em Vídeo (VOS) é uma tarefa fundamental na visão computacional, exigindo que os modelos rastreiem e segmentem objetos-alvo ao longo dos frames de um vídeo. Apesar dos avanços notáveis com esforços recentes, as técnicas atuais ainda ficam aquém das capacidades humanas ao lidar com variações visuais drásticas, oclusões e mudanças complexas de cena. Essa limitação surge da dependência dessas técnicas na correspondência de aparência, negligenciando o entendimento conceitual semelhante ao humano sobre os objetos, que permite uma identificação robusta ao longo das dinâmicas temporais. Motivados por essa lacuna, propomos o Segment Concept (SeC), uma estrutura de segmentação orientada por conceitos que se afasta da correspondência de características convencional para a construção e utilização progressiva de representações de alto nível centradas no objeto. O SeC emprega Grandes Modelos de Visão e Linguagem (LVLMs) para integrar pistas visuais em diversos frames, construindo priores conceituais robustos. Durante a inferência, o SeC forma uma representação semântica abrangente do alvo com base nos frames processados, realizando uma segmentação robusta dos frames subsequentes. Além disso, o SeC equilibra de forma adaptativa o raciocínio semântico baseado em LVLM com uma correspondência de características aprimorada, ajustando dinamicamente os esforços computacionais com base na complexidade da cena. Para avaliar rigorosamente os métodos de VOS em cenários que exigem raciocínio conceitual de alto nível e entendimento semântico robusto, introduzimos o benchmark Semantic Complex Scenarios Video Object Segmentation (SeCVOS). O SeCVOS compreende 160 vídeos de múltiplos cenários anotados manualmente, projetados para desafiar os modelos com variações substanciais de aparência e transformações dinâmicas de cena. Em particular, o SeC alcança uma melhoria de 11,8 pontos em relação ao SAM 2.1 no SeCVOS, estabelecendo um novo estado da arte na segmentação de objetos em vídeo consciente de conceitos.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring models to track and segment target objects across video frames. Despite notable advances with recent efforts, current techniques still lag behind human capabilities in handling drastic visual variations, occlusions, and complex scene changes. This limitation arises from their reliance on appearance matching, neglecting the human-like conceptual understanding of objects that enables robust identification across temporal dynamics. Motivated by this gap, we propose Segment Concept (SeC), a concept-driven segmentation framework that shifts from conventional feature matching to the progressive construction and utilization of high-level, object-centric representations. SeC employs Large Vision-Language Models (LVLMs) to integrate visual cues across diverse frames, constructing robust conceptual priors. During inference, SeC forms a comprehensive semantic representation of the target based on processed frames, realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively balances LVLM-based semantic reasoning with enhanced feature matching, dynamically adjusting computational efforts based on scene complexity. To rigorously assess VOS methods in scenarios demanding high-level conceptual reasoning and robust semantic understanding, we introduce the Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160 manually annotated multi-scenario videos designed to challenge models with substantial appearance variations and dynamic scene transformations. In particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS, establishing a new state-of-the-art in concept-aware video object segmentation.
PDF371July 22, 2025