ChatPaper.aiChatPaper

単純な点予測によるピクセルレベルのVLM知覚の実現

Towards Pixel-Level VLM Perception via Simple Points Prediction

January 27, 2026
著者: Tianhui Song, Haoyu Lu, Hao Yang, Lin Sui, Haoning Wu, Zaida Zhou, Zhiqi Huang, Yiping Bao, Y. Charles, Xinyu Zhou, Limin Wang
cs.AI

要旨

我々はSimpleSegを提案する。これは、マルチモーダル大規模言語モデル(MLLM)にネイティブなピクセルレベル知覚を付与する、驚くほど単純でありながら極めて効果的なアプローチである。本手法はセグメンテーションを単純な系列生成問題として再定義する:モデルは物体輪郭を描く点群(テキスト座標)の系列を言語空間内で直接予測する。高精度を実現するため、IoUベースの報酬を用いた強化学習が点系列を正解輪郭に合致するよう調整する、2段階のSFtoRL学習パイプラインを導入する。標準的なMLLMアーキテクチャには、特殊な構造を追加せずとも解放可能な、低レベル知覚に対する強力な内在能力が備わっていることを見出した。セグメンテーションベンチマークにおいて、SimpleSegは複雑なタスク特化型設計に依存する手法に比肩し、しばしば凌駕する性能を達成する。本成果は、精密な空間理解が単純な点予測から創発し得ることを示し、補助コンポーネントの必要性への通説に挑戦するとともに、より統一的で高機能な視覚言語モデルへの道を開くものである。ホームページ:https://simpleseg.github.io/
English
We present SimpleSeg, a strikingly simple yet highly effective approach to endow Multimodal Large Language Models (MLLMs) with native pixel-level perception. Our method reframes segmentation as a simple sequence generation problem: the model directly predicts sequences of points (textual coordinates) delineating object boundaries, entirely within its language space. To achieve high fidelity, we introduce a two-stage SFtoRL training pipeline, where Reinforcement Learning with an IoU-based reward refines the point sequences to accurately match ground-truth contours. We find that the standard MLLM architecture possesses a strong, inherent capacity for low-level perception that can be unlocked without any specialized architecture. On segmentation benchmarks, SimpleSeg achieves performance that is comparable to, and often surpasses, methods relying on complex, task-specific designs. This work lays out that precise spatial understanding can emerge from simple point prediction, challenging the prevailing need for auxiliary components and paving the way for more unified and capable VLMs. Homepage: https://simpleseg.github.io/
PDF41January 29, 2026