Detecte Qualquer Coisa via Previsão do Próximo Ponto
Detect Anything via Next Point Prediction
October 14, 2025
Autores: Qing Jiang, Junan Huo, Xingyu Chen, Yuda Xiong, Zhaoyang Zeng, Yihao Chen, Tianhe Ren, Junzhi Yu, Lei Zhang
cs.AI
Resumo
A detecção de objetos tem sido tradicionalmente dominada por modelos baseados em regressão de coordenadas, como YOLO, DETR e Grounding DINO. Embora esforços recentes tenham tentado aproveitar MLLMs (Modelos de Linguagem Multimodal) para abordar essa tarefa, eles enfrentam desafios como baixa taxa de recall, previsões duplicadas, desalinhamento de coordenadas, entre outros. Neste trabalho, preenchemos essa lacuna e propomos o Rex-Omni, um MLLM de escala 3B que alcança desempenho de ponta em percepção de objetos. Em benchmarks como COCO e LVIS, o Rex-Omni atinge desempenho comparável ou superior aos modelos baseados em regressão (por exemplo, DINO, Grounding DINO) em um cenário zero-shot. Isso é possibilitado por três designs principais: 1) Formulação de Tarefa: usamos tokens especiais para representar coordenadas quantizadas de 0 a 999, reduzindo a dificuldade de aprendizado do modelo e melhorando a eficiência de tokens para previsão de coordenadas; 2) Motores de Dados: construímos múltiplos motores de dados para gerar dados de alta qualidade para grounding, referência e apontamento, fornecendo supervisão semanticamente rica para o treinamento; 3) Pipelines de Treinamento: empregamos um processo de treinamento em duas etapas, combinando fine-tuning supervisionado em 22 milhões de dados com pós-treinamento de reforço baseado em GRPO. Esse pós-treinamento de RL (Reinforcement Learning) aproveita recompensas conscientes da geometria para efetivamente preencher a lacuna de previsão de coordenadas discreto-contínuo, melhorar a precisão das caixas e mitigar comportamentos indesejáveis, como previsões duplicadas, que surgem da natureza guiada por professor da etapa inicial de SFT (Supervised Fine-Tuning). Além da detecção convencional, a compreensão linguística inerente do Rex-Omni permite capacidades versáteis, como referência a objetos, apontamento, prompt visual, grounding em GUI, referência espacial, OCR e apontamento de pontos-chave, todos avaliados sistematicamente em benchmarks dedicados. Acreditamos que o Rex-Omni abre caminho para sistemas de percepção visual mais versáteis e conscientes da linguagem.
English
Object detection has long been dominated by traditional coordinate
regression-based models, such as YOLO, DETR, and Grounding DINO. Although
recent efforts have attempted to leverage MLLMs to tackle this task, they face
challenges like low recall rate, duplicate predictions, coordinate
misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a
3B-scale MLLM that achieves state-of-the-art object perception performance. On
benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or
exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot
setting. This is enabled by three key designs: 1) Task Formulation: we use
special tokens to represent quantized coordinates from 0 to 999, reducing the
model's learning difficulty and improving token efficiency for coordinate
prediction; 2) Data Engines: we construct multiple data engines to generate
high-quality grounding, referring, and pointing data, providing semantically
rich supervision for training; \3) Training Pipelines: we employ a two-stage
training process, combining supervised fine-tuning on 22 million data with
GRPO-based reinforcement post-training. This RL post-training leverages
geometry-aware rewards to effectively bridge the discrete-to-continuous
coordinate prediction gap, improve box accuracy, and mitigate undesirable
behaviors like duplicate predictions that stem from the teacher-guided nature
of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent
language understanding enables versatile capabilities such as object referring,
pointing, visual prompting, GUI grounding, spatial referring, OCR and
key-pointing, all systematically evaluated on dedicated benchmarks. We believe
that Rex-Omni paves the way for more versatile and language-aware visual
perception systems.