PMT: Plain Mask Transformer para Segmentação de Imagem e Vídeo com Codificadores de Visão Congelados

Resumo

Os Modelos de Base de Visão (VFMs) pré-treinados em larga escala permitem que um único codificador congelado sirva múltiplas tarefas downstream simultaneamente. Modelos recentes baseados em VFMs e com arquitetura somente-codificador para segmentação de imagem e vídeo, como EoMT e VidEoMT, alcançam precisão competitiva com latência notavelmente baixa; no entanto, eles exigem o ajuste fino do codificador, sacrificando o compartilhamento do codificador multitarefa que torna os VFMs praticamente atrativos para implantação em larga escala. Para conciliar a simplicidade e velocidade da arquitetura somente-codificador com as características dos VFMs congelados, propomos o Decodificador de Máscara Simples (PMD), um decodificador de segmentação rápido baseado em Transformer que opera sobre características de VFM congeladas. O modelo resultante, o Transformer de Máscara Simples (PMT), preserva a simplicidade arquitetônica e a baixa latência dos desenhos somente-codificador, mantendo a representação do codificador inalterada e compartilhável. O projeto aplica-se perfeitamente tanto à segmentação de imagem quanto de vídeo, herdando a generalidade da estrutura somente-codificador. Em benchmarks padrão de segmentação de imagem, o PMT iguala o estado da arte com codificador congelado enquanto é executado até ~3x mais rápido. Para segmentação de vídeo, ele chega a performar de forma equivalente a métodos totalmente ajustados, enquanto é até 8x mais rápido que os modelos estado da arte com codificador congelado. Código: https://github.com/tue-mps/pmt.

English

Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.

PMT: Plain Mask Transformer para Segmentação de Imagem e Vídeo com Codificadores de Visão Congelados

PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

Resumo

Support