SeC:プログレッシブな概念構築による複雑なビデオオブジェクトセグメンテーションの進展
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
著者: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
要旨
ビデオオブジェクトセグメンテーション(VOS)は、コンピュータビジョンにおける核心的なタスクであり、モデルがビデオフレーム間でターゲットオブジェクトを追跡し、セグメント化することを要求します。最近の取り組みにより顕著な進展が見られるものの、現在の技術は、劇的な視覚的変化、オクルージョン、複雑なシーン変化を扱う点において、人間の能力にまだ及んでいません。この制限は、外観マッチングに依存し、時間的ダイナミクスにわたる頑健な識別を可能にする人間のようなオブジェクトの概念的理解を無視していることに起因します。このギャップに動機づけられ、我々はセグメントコンセプト(SeC)を提案します。これは、従来の特徴マッチングから、高レベルでオブジェクト中心の表現の漸進的な構築と活用へとシフトする概念駆動型のセグメンテーションフレームワークです。SeCは、大規模視覚言語モデル(LVLM)を活用して、多様なフレーム間の視覚的手がかりを統合し、頑健な概念的プライアを構築します。推論中、SeCは処理されたフレームに基づいてターゲットの包括的な意味表現を形成し、後続フレームの頑健なセグメンテーションを実現します。さらに、SeCは、LVLMベースの意味推論と強化された特徴マッチングを適応的にバランスさせ、シーンの複雑さに基づいて計算努力を動的に調整します。高レベルの概念的推論と頑健な意味理解を要求するシナリオでVOSメソッドを厳密に評価するために、我々はセマンティックコンプレックスシナリオビデオオブジェクトセグメンテーションベンチマーク(SeCVOS)を導入します。SeCVOSは、大幅な外観変化と動的なシーン変換でモデルに挑戦するために設計された160の手動アノテーションされたマルチシナリオビデオで構成されています。特に、SeCはSeCVOSにおいてSAM 2.1に対して11.8ポイントの改善を達成し、概念認識型ビデオオブジェクトセグメンテーションにおける新たな最先端を確立しました。
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.