ChatPaper.aiChatPaper

단순 점 예측을 통한 픽셀 수준 VLM 인식

Towards Pixel-Level VLM Perception via Simple Points Prediction

January 27, 2026
저자: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI

초록

우리는 다중모드 대규모 언어 모델(MLLM)에 기본적인 픽셀 수준 인식 능력을 부여하기 위해 매우 단순하면서도 높은 효과를 보이는 접근법인 SimpleSeg를 소개합니다. 우리의 방법은 분할을 단순한 시퀀스 생성 문제로 재정의합니다: 모델이 객체 경계를 정의하는 점들의 시퀀스(텍스트 좌표)를 자체 언어 공간 내에서 직접 예측하는 방식입니다. 높은 정확도를 달성하기 위해 IoU 기반 보상 강화 학습을 통해 점 시퀀스를 실제 경계에 정확히 맞도록 정제하는 두 단계의 SFtoRL 학습 파이프라인을 도입했습니다. 우리는 표준 MLLM 아키텍처가 특화된 구조 없이도 활성화될 수 있는 강력한 저수준 인식 내재 능력을 보유하고 있음을 발견했습니다. 분할 벤치마크에서 SimpleSeg는 복잡한 작업 전용 설계에 의존하는 방법들과 비교하여 견줄 만하거나 종종 능가하는 성능을 달성합니다. 이 연구는 정밀한 공간 이해가 단순한 점 예측에서 출현할 수 있음을 보여주며, 보조 컴포넌트에 대한 기존의 필요성에 도전하고 더 통합적이고 능력 있는 VLM의 길을 열어줍니다. 홈페이지: https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
PDF41January 29, 2026