다음 점 예측을 통한 모든 것 탐지
Detect Anything via Next Point Prediction
October 14, 2025
저자: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
cs.AI
초록
객체 탐지는 오랫동안 YOLO, DETR, Grounding DINO와 같은 전통적인 좌표 회귀 기반 모델들이 주도해 왔다. 최근 MLLM(Multimodal Large Language Model)을 활용하여 이 문제를 해결하려는 시도가 있었지만, 낮은 재현율, 중복 예측, 좌표 불일치 등의 문제에 직면해 있다. 본 연구에서는 이러한 격차를 해소하고, 최첨단 객체 인식 성능을 달성하는 3B 규모의 MLLM인 Rex-Omni를 제안한다. COCO 및 LVIS와 같은 벤치마크에서 Rex-Omni는 제로샷 설정에서 회귀 기반 모델(예: DINO, Grounding DINO)과 비슷하거나 이를 초과하는 성능을 보인다. 이는 세 가지 주요 설계에 의해 가능해졌다: 1) 작업 공식화: 0부터 999까지의 양자화된 좌표를 나타내기 위해 특수 토큰을 사용하여 모델의 학습 난이도를 줄이고 좌표 예측을 위한 토큰 효율성을 향상시킨다; 2) 데이터 엔진: 고품질의 그라운딩, 참조, 포인팅 데이터를 생성하기 위해 여러 데이터 엔진을 구축하여, 훈련에 의미적으로 풍부한 감독을 제공한다; 3) 훈련 파이프라인: 2,200만 개의 데이터에 대한 지도 미세 조정과 GRPO 기반의 강화 학습 후훈련을 결합한 두 단계의 훈련 과정을 사용한다. 이 RL 후훈련은 기하학적 인식 보상을 활용하여 이산에서 연속 좌표 예측 간의 격차를 효과적으로 해소하고, 박스 정확도를 향상시키며, 초기 SFT 단계의 교사 지도 특성에서 비롯된 중복 예측과 같은 바람직하지 않은 행동을 완화한다. 기존의 탐지를 넘어, Rex-Omni의 내재된 언어 이해 능력은 객체 참조, 포인팅, 시각적 프롬프트, GUI 그라운딩, 공간 참조, OCR 및 키 포인팅과 같은 다양한 기능을 가능하게 하며, 이는 전용 벤치마크에서 체계적으로 평가된다. 우리는 Rex-Omni가 더 다양하고 언어 인식적인 시각 인식 시스템을 위한 길을 열어줄 것이라고 믿는다.
English
Object detection has long been dominated by traditional coordinate
regression-based models, such as YOLO, DETR, and Grounding DINO. Although
recent efforts have attempted to leverage MLLMs to tackle this task, they face
challenges like low recall rate, duplicate predictions, coordinate
misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a
3B-scale MLLM that achieves state-of-the-art object perception performance. On
benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or
exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot
setting. This is enabled by three key designs: 1) Task Formulation: we use
special tokens to represent quantized coordinates from 0 to 999, reducing the
model's learning difficulty and improving token efficiency for coordinate
prediction; 2) Data Engines: we construct multiple data engines to generate
high-quality grounding, referring, and pointing data, providing semantically
rich supervision for training; \3) Training Pipelines: we employ a two-stage
training process, combining supervised fine-tuning on 22 million data with
GRPO-based reinforcement post-training. This RL post-training leverages
geometry-aware rewards to effectively bridge the discrete-to-continuous
coordinate prediction gap, improve box accuracy, and mitigate undesirable
behaviors like duplicate predictions that stem from the teacher-guided nature
of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent
language understanding enables versatile capabilities such as object referring,
pointing, visual prompting, GUI grounding, spatial referring, OCR and
key-pointing, all systematically evaluated on dedicated benchmarks. We believe
that Rex-Omni paves the way for more versatile and language-aware visual
perception systems.