Naar Pixel-Level VLM-Waarneming via Eenvoudige Puntenvoorspelling

Samenvatting

Wij presenteren SimpleSeg, een opvallend eenvoudige maar zeer effectieve aanpak om Multimodale Grote Taalmodellen (MLLM's) te voorzien van een native perceptie op pixelniveau. Onze methode herdefinieert segmentatie als een eenvoudig sequentiegeneratieprobleem: het model voorspelt direct reeksen punten (tekstuele coördinaten) die objectgrenzen afbakenen, geheel binnen zijn taalkundige ruimte. Om een hoge nauwkeurigheid te bereiken, introduceren we een tweefasen SFtoRL-trainingspijplijn, waarbij Reinforcement Learning met een op IoU gebaseerde beloning de puntreeksen verfijnt om nauwkeurig overeen te komen met de werkelijke contouren. Wij ontdekken dat de standaard MLLM-architectuur een sterk, inherent vermogen heeft voor laag-niveau perceptie, dat kan worden ontsloten zonder gespecialiseerde architectuur. Op segmentatiebenchmarks behaalt SimpleSeg prestaties die vergelijkbaar zijn met, en vaak overtreffen, methoden die vertrouwen op complexe, taakspecifieke ontwerpen. Dit werk toont aan dat precies ruimtelijk begrip kan ontstaan uit eenvoudige puntvoorspelling, wat de heersende noodzaak voor hulpcomponenten uitdaagt en de weg effent voor meer verenigde en capabele VLMs. Homepage: https://simpleseg.github.io/

English

We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/

Naar Pixel-Level VLM-Waarneming via Eenvoudige Puntenvoorspelling

Towards Pixel-Level VLM Perception via Simple Points Prediction

Samenvatting

Support