SeC: Avanzando en la Segmentación de Objetos en Videos Complejos mediante la Construcción Progresiva de Conceptos
SeC: Advancing Complex Video Object Segmentation via Progressive Concept Construction
July 21, 2025
Autores: Zhixiong Zhang, Shuangrui Ding, Xiaoyi Dong, Songxin He, Jianfan Lin, Junsong Tang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
La Segmentación de Objetos en Video (VOS, por sus siglas en inglés) es una tarea fundamental en visión por computadora, que requiere que los modelos rastreen y segmenten objetos objetivo a lo largo de los fotogramas de un video. A pesar de los avances notables con esfuerzos recientes, las técnicas actuales aún están por detrás de las capacidades humanas para manejar variaciones visuales drásticas, oclusiones y cambios complejos en la escena. Esta limitación surge de su dependencia en la coincidencia de apariencias, descuidando la comprensión conceptual de los objetos, similar a la humana, que permite una identificación robusta a través de dinámicas temporales. Motivados por esta brecha, proponemos Segment Concept (SeC), un marco de segmentación impulsado por conceptos que cambia de la coincidencia de características convencional a la construcción y utilización progresiva de representaciones de alto nivel centradas en objetos. SeC emplea Modelos Grandes de Visión y Lenguaje (LVLMs, por sus siglas en inglés) para integrar pistas visuales a través de diversos fotogramas, construyendo prioris conceptuales robustos. Durante la inferencia, SeC forma una representación semántica integral del objetivo basada en fotogramas procesados, logrando una segmentación robusta de los fotogramas siguientes. Además, SeC equilibra de manera adaptativa el razonamiento semántico basado en LVLM con una coincidencia de características mejorada, ajustando dinámicamente los esfuerzos computacionales según la complejidad de la escena. Para evaluar rigurosamente los métodos de VOS en escenarios que exigen un razonamiento conceptual de alto nivel y una comprensión semántica robusta, presentamos el benchmark de Segmentación de Objetos en Video en Escenarios Complejos Semánticos (SeCVOS). SeCVOS comprende 160 videos anotados manualmente de múltiples escenarios diseñados para desafiar a los modelos con variaciones sustanciales de apariencia y transformaciones dinámicas de la escena. En particular, SeC logra una mejora de 11.8 puntos sobre SAM 2.1 en SeCVOS, estableciendo un nuevo estado del arte en la segmentación de objetos en video consciente de conceptos.
English
Video Object Segmentation (VOS) is a core task in computer vision, requiring
models to track and segment target objects across video frames. Despite notable
advances with recent efforts, current techniques still lag behind human
capabilities in handling drastic visual variations, occlusions, and complex
scene changes. This limitation arises from their reliance on appearance
matching, neglecting the human-like conceptual understanding of objects that
enables robust identification across temporal dynamics. Motivated by this gap,
we propose Segment Concept (SeC), a concept-driven segmentation framework that
shifts from conventional feature matching to the progressive construction and
utilization of high-level, object-centric representations. SeC employs Large
Vision-Language Models (LVLMs) to integrate visual cues across diverse frames,
constructing robust conceptual priors. During inference, SeC forms a
comprehensive semantic representation of the target based on processed frames,
realizing robust segmentation of follow-up frames. Furthermore, SeC adaptively
balances LVLM-based semantic reasoning with enhanced feature matching,
dynamically adjusting computational efforts based on scene complexity. To
rigorously assess VOS methods in scenarios demanding high-level conceptual
reasoning and robust semantic understanding, we introduce the Semantic Complex
Scenarios Video Object Segmentation benchmark (SeCVOS). SeCVOS comprises 160
manually annotated multi-scenario videos designed to challenge models with
substantial appearance variations and dynamic scene transformations. In
particular, SeC achieves an 11.8-point improvement over SAM 2.1 on SeCVOS,
establishing a new state-of-the-art in concept-aware video object segmentation.