ChatPaper.aiChatPaper

次点予測による任意の検出

Detect Anything via Next Point Prediction

October 14, 2025
著者: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
cs.AI

要旨

物体検出は長らく、YOLO、DETR、Grounding DINOなどの伝統的な座標回帰ベースのモデルが支配してきた。近年、MLLM(大規模言語モデル)を活用してこのタスクに取り組む試みがなされているが、低い再現率、重複予測、座標の不一致などの課題に直面している。本研究では、このギャップを埋めるために、3BスケールのMLLMであるRex-Omniを提案し、最先端の物体認識性能を達成する。COCOやLVISなどのベンチマークにおいて、Rex-Omniはゼロショット設定で回帰ベースのモデル(例:DINO、Grounding DINO)に匹敵するか、それを上回る性能を示す。これを可能にしたのは、以下の3つの主要な設計である:1)タスク定式化:0から999までの量子化された座標を表す特別なトークンを使用し、モデルの学習難易度を低減し、座標予測のためのトークン効率を向上させる。2)データエンジン:高品質なグラウンディング、参照、ポイントデータを生成するために複数のデータエンジンを構築し、意味的に豊かな教師データを提供する。3)トレーニングパイプライン:2段階のトレーニングプロセスを採用し、2200万データに対する教師あり微調整とGRPOベースの強化学習によるポストトレーニングを組み合わせる。このRLポストトレーニングは、幾何学的に意識した報酬を活用して、離散から連続への座標予測のギャップを効果的に埋め、ボックスの精度を向上させ、初期SFT段階の教師ガイド性質に起因する重複予測などの望ましくない挙動を軽減する。従来の検出を超えて、Rex-Omniの内在的な言語理解能力は、物体参照、ポイント、視覚的プロンプティング、GUIグラウンディング、空間参照、OCR、キーポイントなど、多様な機能を可能にし、専用のベンチマークで体系的に評価されている。我々は、Rex-Omniがより多機能で言語を意識した視覚認識システムへの道を開くものと信じている。
English
Object detection has long been dominated by traditional coordinate regression-based models, such as YOLO, DETR, and Grounding DINO. Although recent efforts have attempted to leverage MLLMs to tackle this task, they face challenges like low recall rate, duplicate predictions, coordinate misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a 3B-scale MLLM that achieves state-of-the-art object perception performance. On benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot setting. This is enabled by three key designs: 1) Task Formulation: we use special tokens to represent quantized coordinates from 0 to 999, reducing the model's learning difficulty and improving token efficiency for coordinate prediction; 2) Data Engines: we construct multiple data engines to generate high-quality grounding, referring, and pointing data, providing semantically rich supervision for training; \3) Training Pipelines: we employ a two-stage training process, combining supervised fine-tuning on 22 million data with GRPO-based reinforcement post-training. This RL post-training leverages geometry-aware rewards to effectively bridge the discrete-to-continuous coordinate prediction gap, improve box accuracy, and mitigate undesirable behaviors like duplicate predictions that stem from the teacher-guided nature of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent language understanding enables versatile capabilities such as object referring, pointing, visual prompting, GUI grounding, spatial referring, OCR and key-pointing, all systematically evaluated on dedicated benchmarks. We believe that Rex-Omni paves the way for more versatile and language-aware visual perception systems.
PDF423October 15, 2025