LPOSS: オープンボキャブラリー意味セグメンテーションのためのパッチとピクセル上のラベル伝播
LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation
March 25, 2025
著者: Vladan Stojnić, Yannis Kalantidis, Jiří Matas, Giorgos Tolias
cs.AI
要旨
我々は、Vision-and-Language Models(VLM)を用いたオープン語彙セマンティックセグメンテーションのためのトレーニング不要な手法を提案する。本手法は、ラベル伝播を通じてVLMの初期パッチ単位予測を強化し、パッチ間の関係性を組み込むことで予測を共同最適化する。VLMは主にクロスモーダルアラインメントに最適化されており、イントラモーダル類似性の捕捉には適していないため、これらの関係性をより良く捉えることが観察されたVision Model(VM)を利用する。パッチベースのエンコーダに内在する解像度の制限に対処するため、ピクセルレベルでのラベル伝播をリファインメントステップとして適用し、クラス境界付近のセグメンテーション精度を大幅に向上させる。我々の手法であるLPOSS+は、画像全体に対して推論を行い、ウィンドウベースの処理を回避することで、画像全体にわたる文脈的相互作用を捉える。LPOSS+は、多様なデータセットにおいて、トレーニング不要な手法の中で最先端の性能を達成する。コード: https://github.com/vladan-stojnic/LPOSS
English
We propose a training-free method for open-vocabulary semantic segmentation
using Vision-and-Language Models (VLMs). Our approach enhances the initial
per-patch predictions of VLMs through label propagation, which jointly
optimizes predictions by incorporating patch-to-patch relationships. Since VLMs
are primarily optimized for cross-modal alignment and not for intra-modal
similarity, we use a Vision Model (VM) that is observed to better capture these
relationships. We address resolution limitations inherent to patch-based
encoders by applying label propagation at the pixel level as a refinement step,
significantly improving segmentation accuracy near class boundaries. Our
method, called LPOSS+, performs inference over the entire image, avoiding
window-based processing and thereby capturing contextual interactions across
the full image. LPOSS+ achieves state-of-the-art performance among
training-free methods, across a diverse set of datasets. Code:
https://github.com/vladan-stojnic/LPOSSSummary
AI-Generated Summary