ChatPaper.aiChatPaper

Hin zu einer pixelgenauen VLM-Wahrnehmung durch einfache Punktvorhersage

Towards Pixel-Level VLM Perception via Simple Points Prediction

January 27, 2026
papers.authors: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI

papers.abstract

Wir stellen SimpleSeg vor, einen auffallend einfachen, aber hocheffektiven Ansatz, um Multimodale Large Language Models (MLLMs) mit nativer Pixelwahrnehmung auszustatten. Unsere Methode formuliert Segmentierung als ein einfaches Sequenzgenerierungsproblem neu: Das Modell sagt direkt Sequenzen von Punkten (textuelle Koordinaten) vorher, die Objektgrenzen beschreiben, und dies vollständig innerhalb seines Sprachraums. Um hohe Genauigkeit zu erreichen, führen wir eine zweistufige SFtoRL-Trainingspipeline ein, bei der Reinforcement Learning mit einer IoU-basierten Belohnung die Punktsequenzen verfeinert, um sie präzise an die tatsächlichen Konturen anzupassen. Wir stellen fest, dass die standardmäßige MLLM-Architektur über eine starke, inhärente Fähigkeit zur Low-Level-Wahrnehmung verfügt, die ohne spezielle Architektur freigesetzt werden kann. Auf Segmentierungs-Benchmarks erreicht SimpleSeg eine Leistung, die mit Methoden vergleichbar ist, die auf komplexen, aufgabenspezifischen Designs basieren, und diese oft übertrifft. Diese Arbeit zeigt, dass präzises räumliches Verständnis aus einfacher Punktvorhersage entstehen kann, was den vorherrschenden Bedarf an Hilfskomponenten in Frage stellt und den Weg für einheitlichere und leistungsfähigere VLMs ebnet. Homepage: https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
PDF41January 29, 2026