К пиксельному восприятию VLM через простое предсказание точек
Towards Pixel-Level VLM Perception via Simple Points Prediction
January 27, 2026
Авторы: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI
Аннотация
Мы представляем SimpleSeg — поразительно простой, но высокоэффективный подход, наделяющий мультимодальные большие языковые модели (MLLM) собственной пиксельной восприимчивостью. Наш метод переосмысливает сегментацию как простую задачу генерации последовательностей: модель напрямую предсказывает последовательности точек (текстовые координаты), очерчивающие границы объектов, полностью в рамках своего языкового пространства. Для достижения высокой точности мы вводим двухэтапный конвейер обучения SFtoRL, в котором обучение с подкреплением на основе вознаграждения, рассчитываемого по IoU, уточняет последовательности точек для точного соответствия эталонным контурам. Мы обнаружили, что стандартная архитектура MLLM обладает мощной врожденной способностью к низкоуровневому восприятию, которую можно раскрыть без какой-либо специализированной архитектуры. На бенчмарках сегментации SimpleSeg демонстрирует результаты, сопоставимые, а зачастую и превосходящие методы, основанные на сложных, специфичных для задачи проектных решениях. Данная работа демонстрирует, что точное пространственное понимание может возникать из простого предсказания точек, ставя под сомнение преобладающую необходимость во вспомогательных компонентах и прокладывая путь к более унифицированным и мощным визуально-языковым моделям. Домашняя страница: https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/