Detecte Qualquer Coisa via Previsão do Próximo Ponto

Resumo

A detecção de objetos tem sido tradicionalmente dominada por modelos baseados em regressão de coordenadas, como YOLO, DETR e Grounding DINO. Embora esforços recentes tenham tentado aproveitar MLLMs (Modelos de Linguagem Multimodal) para abordar essa tarefa, eles enfrentam desafios como baixa taxa de recall, previsões duplicadas, desalinhamento de coordenadas, entre outros. Neste trabalho, preenchemos essa lacuna e propomos o Rex-Omni, um MLLM de escala 3B que alcança desempenho de ponta em percepção de objetos. Em benchmarks como COCO e LVIS, o Rex-Omni atinge desempenho comparável ou superior aos modelos baseados em regressão (por exemplo, DINO, Grounding DINO) em um cenário zero-shot. Isso é possibilitado por três designs principais: 1) Formulação de Tarefa: usamos tokens especiais para representar coordenadas quantizadas de 0 a 999, reduzindo a dificuldade de aprendizado do modelo e melhorando a eficiência de tokens para previsão de coordenadas; 2) Motores de Dados: construímos múltiplos motores de dados para gerar dados de alta qualidade para grounding, referência e apontamento, fornecendo supervisão semanticamente rica para o treinamento; 3) Pipelines de Treinamento: empregamos um processo de treinamento em duas etapas, combinando fine-tuning supervisionado em 22 milhões de dados com pós-treinamento de reforço baseado em GRPO. Esse pós-treinamento de RL (Reinforcement Learning) aproveita recompensas conscientes da geometria para efetivamente preencher a lacuna de previsão de coordenadas discreto-contínuo, melhorar a precisão das caixas e mitigar comportamentos indesejáveis, como previsões duplicadas, que surgem da natureza guiada por professor da etapa inicial de SFT (Supervised Fine-Tuning). Além da detecção convencional, a compreensão linguística inerente do Rex-Omni permite capacidades versáteis, como referência a objetos, apontamento, prompt visual, grounding em GUI, referência espacial, OCR e apontamento de pontos-chave, todos avaliados sistematicamente em benchmarks dedicados. Acreditamos que o Rex-Omni abre caminho para sistemas de percepção visual mais versáteis e conscientes da linguagem.

English

Object detection has long been dominated by traditional coordinate regression-based models, such as YOLO, DETR, and Grounding DINO. Although recent efforts have attempted to leverage MLLMs to tackle this task, they face challenges like low recall rate, duplicate predictions, coordinate misalignment, etc. In this work, we bridge this gap and propose Rex-Omni, a 3B-scale MLLM that achieves state-of-the-art object perception performance. On benchmarks like COCO and LVIS, Rex-Omni attains performance comparable to or exceeding regression-based models (e.g., DINO, Grounding DINO) in a zero-shot setting. This is enabled by three key designs: 1) Task Formulation: we use special tokens to represent quantized coordinates from 0 to 999, reducing the model's learning difficulty and improving token efficiency for coordinate prediction; 2) Data Engines: we construct multiple data engines to generate high-quality grounding, referring, and pointing data, providing semantically rich supervision for training; \3) Training Pipelines: we employ a two-stage training process, combining supervised fine-tuning on 22 million data with GRPO-based reinforcement post-training. This RL post-training leverages geometry-aware rewards to effectively bridge the discrete-to-continuous coordinate prediction gap, improve box accuracy, and mitigate undesirable behaviors like duplicate predictions that stem from the teacher-guided nature of the initial SFT stage. Beyond conventional detection, Rex-Omni's inherent language understanding enables versatile capabilities such as object referring, pointing, visual prompting, GUI grounding, spatial referring, OCR and key-pointing, all systematically evaluated on dedicated benchmarks. We believe that Rex-Omni paves the way for more versatile and language-aware visual perception systems.

Detecte Qualquer Coisa via Previsão do Próximo Ponto

Detect Anything via Next Point Prediction

Resumo

Support