VidEoMT: Ihr ViT ist heimlich auch ein Videosegmentierungsmodell
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
February 19, 2026
papers.authors: Narges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
papers.abstract
Bestehende Modelle für die Online-Videosegmentierung kombinieren typischerweise einen Einzelbild-Segmentierer mit komplexen, spezialisierten Tracking-Modulen. Obwohl effektiv, führen diese Module eine erhebliche architektonische Komplexität und Rechenlast ein. Jüngste Studien legen nahe, dass reine Vision-Transformer-(ViT)-Encoder, wenn sie mit ausreichender Kapazität skalieren und großangelegtem Vortraining versehen werden, eine präzise Bildsegmentierung ohne spezielle Module durchführen können. Motiviert durch diese Beobachtung schlagen wir den Video Encoder-only Mask Transformer (VidEoMT) vor, ein einfaches, rein encoder-basiertes Videosegmentierungsmodell, das auf dedizierte Tracking-Module verzichtet. Um zeitliche Modellierung in einem reinen ViT-Encoder zu ermöglichen, führt VidEoMT einen leichtgewichtigen Query-Propagierungsmechanismus ein, der Informationen über Frames hinweg transportiert, indem Queries aus dem vorherigen Frame wiederverwendet werden. Um dies mit der Anpassungsfähigkeit an neue Inhalte in Einklang zu bringen, verwendet es eine Query-Fusion-Strategie, die die propagierten Queries mit einem Satz zeitlich unabhängiger, gelernter Queries kombiniert. Dadurch erzielt VidEoMT die Vorteile eines Trackers ohne zusätzliche Komplexität, erreicht eine vergleichbare Genauigkeit und ist dabei 5–10 mal schneller – mit einer ViT-L-Backbone-Architektur werden bis zu 160 FPS erzielt. Code: https://www.tue-mps.org/videomt/
English
Existing online video segmentation models typically combine a per-frame segmenter with complex specialized tracking modules. While effective, these modules introduce significant architectural complexity and computational overhead. Recent studies suggest that plain Vision Transformer (ViT) encoders, when scaled with sufficient capacity and large-scale pre-training, can conduct accurate image segmentation without requiring specialized modules. Motivated by this observation, we propose the Video Encoder-only Mask Transformer (VidEoMT), a simple encoder-only video segmentation model that eliminates the need for dedicated tracking modules. To enable temporal modeling in an encoder-only ViT, VidEoMT introduces a lightweight query propagation mechanism that carries information across frames by reusing queries from the previous frame. To balance this with adaptability to new content, it employs a query fusion strategy that combines the propagated queries with a set of temporally-agnostic learned queries. As a result, VidEoMT attains the benefits of a tracker without added complexity, achieving competitive accuracy while being 5x--10x faster, running at up to 160 FPS with a ViT-L backbone. Code: https://www.tue-mps.org/videomt/