VidEoMT: Sua ViT é Secretamente Também um Modelo de Segmentação de Vídeo
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
February 19, 2026
Autores: Narges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
Resumo
Os modelos existentes de segmentação de vídeo online normalmente combinam um segmentador por quadro com módulos de rastreamento especializados e complexos. Embora eficazes, esses módulos introduzem uma complexidade arquitetônica e uma sobrecarga computacional significativas. Estudos recentes sugerem que codificadores Vision Transformer (ViT) simples, quando dimensionados com capacidade suficiente e pré-treinamento em larga escala, podem realizar segmentação precisa de imagens sem a necessidade de módulos especializados. Motivados por essa observação, propomos o Video Encoder-only Mask Transformer (VidEoMT), um modelo simples de segmentação de vídeo baseado apenas em codificador que elimina a necessidade de módulos de rastreamento dedicados. Para permitir a modelagem temporal em um ViT apenas com codificador, o VidEoMT introduz um mecanismo leve de propagação de consultas (queries) que transporta informações entre quadros, reutilizando as consultas do quadro anterior. Para equilibrar isso com a adaptabilidade a novos conteúdos, ele emprega uma estratégia de fusão de consultas que combina as consultas propagadas com um conjunto de consultas aprendidas temporalmente agnósticas. Como resultado, o VidEoMT obtém os benefícios de um rastreador sem complexidade adicional, alcançando precisão competitiva enquanto é 5x a 10x mais rápido, operando a até 160 FPS com uma backbone ViT-L. Código: https://www.tue-mps.org/videomt/
English
Existing online video segmentation models typically combine a per-frame segmenter with complex specialized tracking modules. While effective, these modules introduce significant architectural complexity and computational overhead. Recent studies suggest that plain Vision Transformer (ViT) encoders, when scaled with sufficient capacity and large-scale pre-training, can conduct accurate image segmentation without requiring specialized modules. Motivated by this observation, we propose the Video Encoder-only Mask Transformer (VidEoMT), a simple encoder-only video segmentation model that eliminates the need for dedicated tracking modules. To enable temporal modeling in an encoder-only ViT, VidEoMT introduces a lightweight query propagation mechanism that carries information across frames by reusing queries from the previous frame. To balance this with adaptability to new content, it employs a query fusion strategy that combines the propagated queries with a set of temporally-agnostic learned queries. As a result, VidEoMT attains the benefits of a tracker without added complexity, achieving competitive accuracy while being 5x--10x faster, running at up to 160 FPS with a ViT-L backbone. Code: https://www.tue-mps.org/videomt/