ChatPaper.aiChatPaper

Erkennung von allem durch nächste Punktvorhersage

Detect Anything via Next Point Prediction

October 14, 2025
papers.authors: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
cs.AI

papers.abstract

Die Objekterkennung wurde lange Zeit von traditionellen, auf Koordinatenregression basierenden Modellen wie YOLO, DETR und Grounding DINO dominiert. Obwohl neuere Ansätze versucht haben, MLLMs (Multimodale Large Language Models) für diese Aufgabe zu nutzen, stehen sie vor Herausforderungen wie niedriger Trefferquote, doppelten Vorhersagen, Koordinatenfehlausrichtungen usw. In dieser Arbeit schließen wir diese Lücke und schlagen Rex-Omni vor, ein MLLM mit 3 Milliarden Parametern, das eine state-of-the-art Leistung in der Objektwahrnehmung erzielt. Auf Benchmarks wie COCO und LVIS erreicht Rex-Omni in einer Zero-Shot-Einstellung eine Leistung, die mit regressionsbasierten Modellen (z. B. DINO, Grounding DINO) vergleichbar ist oder diese sogar übertrifft. Dies wird durch drei Schlüsseldesigns ermöglicht: 1) Aufgabenformulierung: Wir verwenden spezielle Tokens, um quantisierte Koordinaten von 0 bis 999 darzustellen, was die Lernschwierigkeit des Modells verringert und die Token-Effizienz für die Koordinatenvorhersage verbessert; 2) Datenengines: Wir konstruieren mehrere Datenengines, um hochwertige Grounding-, Referenz- und Pointing-Daten zu generieren, die semantisch reiche Supervision für das Training bieten; 3) Trainingspipeline: Wir verwenden einen zweistufigen Trainingsprozess, der überwachtes Fine-Tuning auf 22 Millionen Daten mit GRPO-basiertem Reinforcement-Post-Training kombiniert. Dieses RL-Post-Training nutzt geometrie-bewusste Belohnungen, um die Lücke zwischen diskreter und kontinuierlicher Koordinatenvorhersage effektiv zu schließen, die Genauigkeit der Bounding-Boxen zu verbessern und unerwünschte Verhaltensweisen wie doppelte Vorhersagen zu mildern, die aus dem leitergestützten Charakter der anfänglichen SFT-Phase resultieren. Über die konventionelle Erkennung hinaus ermöglicht das inhärente Sprachverständnis von Rex-Omni vielseitige Fähigkeiten wie Objektreferenzierung, Pointing, visuelle Prompting, GUI-Grounding, räumliche Referenzierung, OCR und Key-Pointing, die alle systematisch auf speziellen Benchmarks evaluiert werden. Wir glauben, dass Rex-Omni den Weg für vielseitigere und sprachbewusstere visuelle Wahrnehmungssysteme ebnet.
English
Object detection has long been dominated by traditional coordinate regression-based models, such as YOLO, DETR, and Grounding DINO. Although recent efforts have attempted to leverage MLLMs to tackle this task, they face challenges like low recall rate, duplicate predictions, coordinate misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a 3B-scale MLLM that achieves state-of-the-art object perception performance. On benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot setting. This is enabled by three key designs: 1) Task Formulation: we use special tokens to represent quantized coordinates from 0 to 999, reducing the model's learning difficulty and improving token efficiency for coordinate prediction; 2) Data Engines: we construct multiple data engines to generate high-quality grounding, referring, and pointing data, providing semantically rich supervision for training; \3) Training Pipelines: we employ a two-stage training process, combining supervised fine-tuning on 22 million data with GRPO-based reinforcement post-training. This RL post-training leverages geometry-aware rewards to effectively bridge the discrete-to-continuous coordinate prediction gap, improve box accuracy, and mitigate undesirable behaviors like duplicate predictions that stem from the teacher-guided nature of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent language understanding enables versatile capabilities such as object referring, pointing, visual prompting, GUI grounding, spatial referring, OCR and key-pointing, all systematically evaluated on dedicated benchmarks. We believe that Rex-Omni paves the way for more versatile and language-aware visual perception systems.
PDF423October 15, 2025