PMT : Transformer à Masque Simple pour la Segmentation d'Images et de Vidéos avec des Encodeurs Visuels Gelés

Résumé

Les modèles de fondation visuelle (VFMs) pré-entraînés à grande échelle permettent à un encodeur figé unique de servir simultanément plusieurs tâches en aval. Les modèles récents basés sur les VFMs et utilisant uniquement un encodeur pour la segmentation d'images et de vidéos, tels que EoMT et VidEoMT, atteignent une précision compétitive avec une latence remarquablement faible, mais ils nécessitent un ajustement fin de l'encodeur, ce qui sacrifie le partage multi-tâches de l'encodeur qui rend les VFMs pratiquement attrayants pour un déploiement à grande échelle. Pour concilier la simplicité et la vitesse des architectures à encodeur unique avec les caractéristiques figées des VFMs, nous proposons le Décodeur de Masque Simple (PMD), un décodeur de segmentation rapide basé sur Transformer qui fonctionne sur des caractéristiques de VFM figées. Le modèle résultant, le Transformer de Masque Simple (PMT), préserve la simplicité architecturale et la faible latence des conceptions à encodeur unique tout en maintenant la représentation de l'encodeur inchangée et partageable. La conception s'applique de manière transparente à la segmentation d'images et de vidéos, héritant de la généralité du framework à encodeur unique. Sur les benchmarks de segmentation d'images standard, PMT atteint l'état de l'art avec un encodeur figé tout en étant jusqu'à ~3 fois plus rapide. Pour la segmentation vidéo, il performe même au même niveau que les méthodes entièrement ajustées, tout en étant jusqu'à 8 fois plus rapide que les modèles état de l'art avec encodeur figé. Code : https://github.com/tue-mps/pmt.

English

Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.

PMT : Transformer à Masque Simple pour la Segmentation d'Images et de Vidéos avec des Encodeurs Visuels Gelés

PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders

Résumé

Support