PMT: 고정된 비전 인코더를 활용한 이미지 및 비디오 분할을 위한 평면 마스크 트랜스포머
PMT: Plain Mask Transformer for Image and Video Segmentation with Frozen Vision Encoders
March 26, 2026
저자: Niccolò Cavagnero, Narges Norouzi, Gijs Dubbelman, Daan de Geus
cs.AI
초록
대규모로 사전 학습된 비전 파운데이션 모델(VFM)은 단일 고정(frozen) 인코더가 여러 다운스트림 작업을 동시에 수행할 수 있도록 합니다. 이미지 및 비디오 분할을 위한 EoMT 및 VidEoMT와 같은 최신 VFM 기반 인코더 전용(encoder-only) 모델은 매우 낮은 지연 시간으로 경쟁력 있는 정확도를 달성하지만, 인코더 미세 조정(finetuning)이 필요하여 VFM이 대규모 배포에 실용적으로 매력적으로 만드는 다중 작업 인코더 공유를 희생합니다. 인코더 전용 방식의 단순성과 속도를 고정 VFM 특징과 조화시키기 위해, 우리는 고정된 VFM 특징 위에서 동작하는 빠른 Transformer 기반 분할 디코더인 Plain Mask Decoder(PMD)를 제안합니다. 그 결과물인 Plain Mask Transformer(PMT)는 인코더 표현을 변경 없이 공유 가능하게 유지하면서도 인코더 전용 설계의 구조적 단순성과 낮은 지연 시간을 보존합니다. 이 설계는 이미지와 비디오 분할 모두에 원활하게 적용되어 인코더 전용 프레임워크의 일반성을 계승합니다. 표준 이미지 분할 벤치마크에서 PMT는 최대 약 3배 빠른 속도로 실행되면서 고정 인코더 방식의 최신 기술 수준(state of the art)과 성능을 맞섭니다. 비디오 분할의 경우, 완전 미세 조정 방법들과 동등한 성능을 보이면서도 고정 인코더 최신 기술 모델보다 최대 8배 빠릅니다. 코드: https://github.com/tue-mps/pmt.
English
Vision Foundation Models (VFMs) pre-trained at scale enable a single frozen encoder to serve multiple downstream tasks simultaneously. Recent VFM-based encoder-only models for image and video segmentation, such as EoMT and VidEoMT, achieve competitive accuracy with remarkably low latency, yet they require finetuning the encoder, sacrificing the multi-task encoder sharing that makes VFMs practically attractive for large-scale deployment. To reconcile encoder-only simplicity and speed with frozen VFM features, we propose the Plain Mask Decoder (PMD), a fast Transformer-based segmentation decoder that operates on top of frozen VFM features. The resulting model, the Plain Mask Transformer (PMT), preserves the architectural simplicity and low latency of encoder-only designs while keeping the encoder representation unchanged and shareable. The design seamlessly applies to both image and video segmentation, inheriting the generality of the encoder-only framework. On standard image segmentation benchmarks, PMT matches the frozen-encoder state of the art while running up to ~3x faster. For video segmentation, it even performs on par with fully finetuned methods, while being up to 8x faster than state-of-the-art frozen-encoder models. Code: https://github.com/tue-mps/pmt.