Vers une perception VLM au niveau des pixels via une prédiction de points simples
Towards Pixel-Level VLM Perception via Simple Points Prediction
January 27, 2026
papers.authors: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI
papers.abstract
Nous présentons SimpleSeg, une approche remarquablement simple mais extrêmement efficace pour doter les modèles de langage multimodaux de grande taille (MLLM) d'une perception native au niveau des pixels. Notre méthode reformule la segmentation comme un simple problème de génération de séquence : le modèle prédit directement des séquences de points (coordonnées textuelles) délimitant les contours des objets, entièrement dans son espace linguistique. Pour atteindre une haute fidélité, nous introduisons un pipeline d'entraînement en deux étapes SFtoRL, où l'apprentissage par renforcement avec une récompense basée sur l'IoU affine les séquences de points pour qu'elles correspondent précisément aux contours de référence. Nous constatons que l'architecture standard des MLLM possède une forte capacité inhérente de perception de bas niveau qui peut être libérée sans aucune architecture spécialisée. Sur les benchmarks de segmentation, SimpleSeg atteint des performances comparables, et souvent supérieures, aux méthodes reposant sur des conceptions complexes et spécifiques à la tâche. Ce travail démontre qu'une compréhension spatiale précise peut émerger d'une simple prédiction de points, remettant en cause la nécessité prédominante de composants auxiliaires et ouvrant la voie à des modèles de langage visuel plus unifiés et performants. Page d'accueil : https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/