ChatPaper.aiChatPaper

Modelo Autoregresivo Universal para Segmentación de Video

Autoregressive Universal Video Segmentation Model

August 26, 2025
Autores: Miran Heo, Sukjun Hwang, Min-Hung Chen, Yu-Chiang Frank Wang, Albert Gu, Seon Joo Kim, Ryo Hachiuma
cs.AI

Resumen

Los modelos fundamentales de video recientes, como SAM2, destacan en la segmentación de video guiada al tratar las máscaras como una primitiva de propósito general. Sin embargo, muchos escenarios del mundo real requieren segmentación no guiada que busca detectar y rastrear todos los objetos en un video sin señales externas, lo que deja el panorama actual fragmentado en modelos y pipelines específicos para cada tarea. Replanteamos la segmentación de video en streaming como predicción secuencial de máscaras, análoga al modelado de lenguaje, e introducimos el Modelo de Segmentación Universal Autoregresivo (AUSM), una única arquitectura que unifica tanto la segmentación de video guiada como la no guiada. Basado en modelos de estado-espacio recientes, AUSM mantiene un estado espacial de tamaño fijo y se escala a flujos de video de longitud arbitraria. Además, todos los componentes de AUSM están diseñados para entrenamiento paralelo a través de los fotogramas, logrando aceleraciones significativas sobre el entrenamiento iterativo. En benchmarks estándar (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, y OVIS), AUSM supera a los métodos previos de segmentación universal de video en streaming y alcanza hasta 2.5 veces más rápido el entrenamiento en secuencias de 16 fotogramas.
English
Recent video foundation models such as SAM2 excel at prompted video segmentation by treating masks as a general-purpose primitive. However, many real-world settings require unprompted segmentation that aims to detect and track all objects in a video without external cues, leaving today's landscape fragmented across task-specific models and pipelines. We recast streaming video segmentation as sequential mask prediction, analogous to language modeling, and introduce the Autoregressive Universal Segmentation Model (AUSM), a single architecture that unifies both prompted and unprompted video segmentation. Built on recent state-space models, AUSM maintains a fixed-size spatial state and scales to video streams of arbitrary length. Furthermore, all components of AUSM are designed for parallel training across frames, yielding substantial speedups over iterative training. On standard benchmarks (DAVIS17, YouTube-VOS 2018 & 2019, MOSE, YouTube-VIS 2019 & 2021, and OVIS) AUSM outperforms prior universal streaming video segmentation methods and achieves up to 2.5x faster training on 16-frame sequences.
PDF81August 27, 2025