PMT: Transformador de Máscara Simple para Segmentación de Imágenes y Videos con Codificadores Visuales Congelados
PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
March 26, 2026
Autores: Niccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus
cs.AI
Resumen
Los Modelos Fundacionales de Visión (VFMs) preentrenados a gran escala permiten que un codificador congelado único sirva para múltiples tareas posteriores simultáneamente. Los modelos recientes basados en VFM y de solo codificador para segmentación de imágenes y vídeo, como EoMT y VidEoMT, logran una precisión competitiva con una latencia notablemente baja; sin embargo, requieren ajustar el codificador, sacrificando el uso compartido del codificador multitarea que hace que los VFMs sean atractivos para su implementación a gran escala. Para reconciliar la simplicidad y velocidad de los diseños de solo codificador con las características congeladas de los VFMs, proponemos el Decodificador de Mascara Simple (PMD), un decodificador de segmentación rápido basado en Transformer que opera sobre las características congeladas de un VFM. El modelo resultante, el Transformer de Mascara Simple (PMT), preserva la simplicidad arquitectónica y la baja latencia de los diseños de solo codificador, manteniendo la representación del codificador inalterada y compartible. El diseño se aplica de forma natural tanto a la segmentación de imágenes como de vídeo, heredando la generalidad del marco de solo codificador. En benchmarks estándar de segmentación de imágenes, PMT iguala el estado del arte con codificador congelado mientras funciona hasta ~3 veces más rápido. Para la segmentación de vídeo, incluso rinde a la par de los métodos completamente ajustados, mientras es hasta 8 veces más rápido que los modelos de última generación con codificador congelado. Código: https://github.com/tue-mps/pmt.
English
Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.