VidEoMT: 당신의 ViT는 비밀리에 비디오 분할 모델이기도 합니다
VidEoMT: Your ViT is Secretly Also a Video Segmentation Model
February 19, 2026
저자: Narges Norouzi, Idil Esen Zulfikar, Niccol`o Cavagnero, Tommie Kerssies, Bastian Leibe, Gijs Dubbelman, Daan de Geus
cs.AI
초록
기존 온라인 비디오 분할 모델은 일반적으로 프레임별 분할기와 복잡한 전용 추적 모듈을 결합합니다. 이러한 모듈은 효과적이지만 상당한 구조적 복잡성과 계산 부하를 초래합니다. 최근 연구에 따르면, 충분한 용량과 대규모 사전 학습으로 확장된 일반 Vision Transformer(ViT) 인코더는 특수 모듈 없이도 정확한 이미지 분할이 가능합니다. 이러한 관찰에 영감을 받아, 본 연구에서는 전용 추적 모듈이 필요 없는 간단한 인코더 전용 비디오 분할 모델인 VidEoMT(Video Encoder-only Mask Transformer)를 제안합니다. 인코더 전용 ViT에서 시간적 모델링을 가능하게 하기 위해 VidEoMT는 이전 프레임의 쿼리를 재사용하여 프레임 간 정보를 전달하는 경량 쿼리 전파 메커니즘을 도입합니다. 이를 새로운 콘텐츠에 대한 적응성과 균형 있게 조화시키기 위해, 전파된 쿼리와 시간에 독립적인 학습된 쿼리 세트를 결합하는 쿼리 융합 전략을 사용합니다. 그 결과 VidEoMT는 추가적인 복잡성 없이 추적기의 이점을 얻으며, ViT-L 백본으로 최대 160 FPS의 속도(기존 대비 5~10배 빠름)로 실행되는 동시에 경쟁력 있는 정확도를 달성합니다. 코드: https://www.tue-mps.org/videomt/
English
Existing online video segmentation models typically combine a per-frame segmenter with complex specialized tracking modules. While effective, these modules introduce significant architectural complexity and computational overhead. Recent studies suggest that plain Vision Transformer (ViT) encoders, when scaled with sufficient capacity and large-scale pre-training, can conduct accurate image segmentation without requiring specialized modules. Motivated by this observation, we propose the Video Encoder-only Mask Transformer (VidEoMT), a simple encoder-only video segmentation model that eliminates the need for dedicated tracking modules. To enable temporal modeling in an encoder-only ViT, VidEoMT introduces a lightweight query propagation mechanism that carries information across frames by reusing queries from the previous frame. To balance this with adaptability to new content, it employs a query fusion strategy that combines the propagated queries with a set of temporally-agnostic learned queries. As a result, VidEoMT attains the benefits of a tracker without added complexity, achieving competitive accuracy while being 5x--10x faster, running at up to 160 FPS with a ViT-L backbone. Code: https://www.tue-mps.org/videomt/