ChatPaper.aiChatPaper

SeC: Развитие сложного сегментирования объектов в видео через прогрессивное построение концепций

SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction

July 21, 2025
Авторы: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI

Аннотация

Сегментация объектов на видео (Video Object Segmentation, VOS) является ключевой задачей в области компьютерного зрения, требующей от моделей отслеживания и сегментации целевых объектов на протяжении кадров видео. Несмотря на значительные успехи, достигнутые в последних исследованиях, современные методы всё ещё уступают человеческим способностям в обработке резких визуальных изменений, перекрытий и сложных сценарных преобразований. Это ограничение связано с их зависимостью от сопоставления внешних признаков, игнорируя концептуальное понимание объектов, свойственное человеку, которое обеспечивает устойчивую идентификацию в условиях временной динамики. Вдохновлённые этим разрывом, мы предлагаем Segment Concept (SeC) — концептуально-ориентированную структуру для сегментации, которая переходит от традиционного сопоставления признаков к постепенному построению и использованию высокоуровневых, объектно-центрированных представлений. SeC использует крупные визуально-языковые модели (Large Vision-Language Models, LVLMs) для интеграции визуальных сигналов из различных кадров, формируя устойчивые концептуальные априорные данные. В процессе вывода SeC создаёт всеобъемлющее семантическое представление цели на основе обработанных кадров, обеспечивая устойчивую сегментацию последующих кадров. Кроме того, SeC адаптивно балансирует семантическое рассуждение на основе LVLM с улучшенным сопоставлением признаков, динамически регулируя вычислительные усилия в зависимости от сложности сцены. Для строгой оценки методов VOS в сценариях, требующих высокоуровневого концептуального рассуждения и устойчивого семантического понимания, мы представляем эталонный набор данных Semantic Complex Scenarios Video Object Segmentation (SeCVOS). SeCVOS включает 160 вручную аннотированных видеороликов с множеством сценариев, разработанных для проверки моделей на устойчивость к значительным изменениям внешнего вида и динамическим преобразованиям сцены. В частности, SeC демонстрирует улучшение на 11,8 пунктов по сравнению с SAM 2.1 на SeCVOS, устанавливая новый эталон в концептуально-ориентированной сегментации объектов на видео.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring models to track and segment target objects across video frames. Despite notable advances with recent efforts, current techniques still lag behind human capabilities in handling drastic visual variations, occlusions, and complex scene changes. This limitation arises from their reliance on appearance matching, neglecting the human-like conceptual understanding of objects that enables robust identification across temporal dynamics. Motivated by this gap, we propose Segment Concept (SeC), a concept-driven segmentation framework that shifts from conventional feature matching to the progressive construction and utilization of high-level, object-centric representations. SeC employs Large Vision-Language Models (LVLMs) to integrate visual cues across diverse frames, constructing robust conceptual priors. During inference, SeC forms a comprehensive semantic representation of the target based on processed frames, realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively balances LVLM-based semantic reasoning with enhanced feature matching, dynamically adjusting computational efforts based on scene complexity. To rigorously assess VOS methods in scenarios demanding high-level conceptual reasoning and robust semantic understanding, we introduce the Semantic Complex Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160 manually annotated multi-scenario videos designed to challenge models with substantial appearance variations and dynamic scene transformations. In particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS, establishing a new state-of-the-art in concept-aware video object segmentation.
PDF331July 22, 2025