ChatPaper.aiChatPaper

Hacia una Percepción VLM a Nivel de Píxel Mediante la Predicción Simple de Puntos

Towards Pixel-Level VLM Perception via Simple Points Prediction

January 27, 2026
Autores: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI

Resumen

Presentamos SimpleSeg, un enfoque sorprendentemente simple pero altamente efectivo para dotar a los Modelos Grandes de Lenguaje Multimodal (MLLMs) de percepción nativa a nivel de píxel. Nuestro método replantea la segmentación como un simple problema de generación de secuencias: el modelo predice directamente secuencias de puntos (coordenadas textuales) que delinean los límites de los objetos, completamente dentro de su espacio lingüístico. Para lograr una alta fidelidad, introducimos una canalización de entrenimiento en dos etapas, SFtoRL, donde el Aprendizaje por Refuerzo con una recompensa basada en IoU refina las secuencias de puntos para que coincidan con precisión con los contornos reales. Descubrimos que la arquitectura estándar de los MLLM posee una fuerte capacidad inherente para la percepción de bajo nivel que puede desbloquearse sin necesidad de ninguna arquitectura especializada. En los puntos de referencia de segmentación, SimpleSeg logra un rendimiento comparable y, a menudo, superior al de los métodos que dependen de diseños complejos y específicos de la tarea. Este trabajo demuestra que la comprensión espacial precisa puede surgir de la simple predicción de puntos, desafiando la necesidad predominante de componentes auxiliares y allanando el camino para Modelos de Lenguaje Visual más unificados y capaces. Página web: https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
PDF41January 29, 2026