Erkennung von allem durch nächste Punktvorhersage
Detect Anything via Next Point Prediction
October 14, 2025
papers.authors: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
cs.AI
papers.abstract
Die Objekterkennung wurde lange Zeit von traditionellen, auf Koordinatenregression basierenden Modellen wie YOLO, DETR und Grounding DINO dominiert. Obwohl neuere Ansätze versucht haben, MLLMs (Multimodale Large Language Models) für diese Aufgabe zu nutzen, stehen sie vor Herausforderungen wie niedriger Trefferquote, doppelten Vorhersagen, Koordinatenfehlausrichtungen usw. In dieser Arbeit schließen wir diese Lücke und schlagen Rex-Omni vor, ein MLLM mit 3 Milliarden Parametern, das eine state-of-the-art Leistung in der Objektwahrnehmung erzielt. Auf Benchmarks wie COCO und LVIS erreicht Rex-Omni in einer Zero-Shot-Einstellung eine Leistung, die mit regressionsbasierten Modellen (z. B. DINO, Grounding DINO) vergleichbar ist oder diese sogar übertrifft. Dies wird durch drei Schlüsseldesigns ermöglicht: 1) Aufgabenformulierung: Wir verwenden spezielle Tokens, um quantisierte Koordinaten von 0 bis 999 darzustellen, was die Lernschwierigkeit des Modells verringert und die Token-Effizienz für die Koordinatenvorhersage verbessert; 2) Datenengines: Wir konstruieren mehrere Datenengines, um hochwertige Grounding-, Referenz- und Pointing-Daten zu generieren, die semantisch reiche Supervision für das Training bieten; 3) Trainingspipeline: Wir verwenden einen zweistufigen Trainingsprozess, der überwachtes Fine-Tuning auf 22 Millionen Daten mit GRPO-basiertem Reinforcement-Post-Training kombiniert. Dieses RL-Post-Training nutzt geometrie-bewusste Belohnungen, um die Lücke zwischen diskreter und kontinuierlicher Koordinatenvorhersage effektiv zu schließen, die Genauigkeit der Bounding-Boxen zu verbessern und unerwünschte Verhaltensweisen wie doppelte Vorhersagen zu mildern, die aus dem leitergestützten Charakter der anfänglichen SFT-Phase resultieren. Über die konventionelle Erkennung hinaus ermöglicht das inhärente Sprachverständnis von Rex-Omni vielseitige Fähigkeiten wie Objektreferenzierung, Pointing, visuelle Prompting, GUI-Grounding, räumliche Referenzierung, OCR und Key-Pointing, die alle systematisch auf speziellen Benchmarks evaluiert werden. Wir glauben, dass Rex-Omni den Weg für vielseitigere und sprachbewusstere visuelle Wahrnehmungssysteme ebnet.
English
Object detection has long been dominated by traditional coordinate
regression-based models, such as YOLO, DETR, and Grounding DINO. Although
recent efforts have attempted to leverage MLLMs to tackle this task, they face
challenges like low recall rate, duplicate predictions, coordinate
misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a
3B-scale MLLM that achieves state-of-the-art object perception performance. On
benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or
exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot
setting. This is enabled by three key designs: 1) Task Formulation: we use
special tokens to represent quantized coordinates from 0 to 999, reducing the
model's learning difficulty and improving token efficiency for coordinate
prediction; 2) Data Engines: we construct multiple data engines to generate
high-quality grounding, referring, and pointing data, providing semantically
rich supervision for training; \3) Training Pipelines: we employ a two-stage
training process, combining supervised fine-tuning on 22 million data with
GRPO-based reinforcement post-training. This RL post-training leverages
geometry-aware rewards to effectively bridge the discrete-to-continuous
coordinate prediction gap, improve box accuracy, and mitigate undesirable
behaviors like duplicate predictions that stem from the teacher-guided nature
of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent
language understanding enables versatile capabilities such as object referring,
pointing, visual prompting, GUI grounding, spatial referring, OCR and
key-pointing, all systematically evaluated on dedicated benchmarks. We believe
that Rex-Omni paves the way for more versatile and language-aware visual
perception systems.