Rex-Thinker : Référencement d'objets ancré via un raisonnement en chaîne de pensées
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
Auteurs: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
Résumé
La référence d'objets vise à détecter tous les objets dans une image qui correspondent à une description en langage naturel donnée. Nous soutenons qu'un modèle robuste de référence d'objets devrait être ancré, c'est-à-dire que ses prédictions devraient être à la fois explicables et fidèles au contenu visuel. Plus précisément, il devrait satisfaire deux propriétés clés : 1) Vérifiable, en produisant un raisonnement interprétable qui justifie ses prédictions et les relie clairement à des preuves visuelles ; et 2) Digne de confiance, en apprenant à s'abstenir lorsqu'aucun objet dans l'image ne correspond à l'expression donnée. Cependant, la plupart des méthodes traitent la référence comme une tâche de prédiction directe de boîtes englobantes, offrant une interprétabilité limitée et peinant à rejeter les expressions sans objet correspondant. Dans ce travail, nous proposons Rex-Thinker, un modèle qui formule la référence d'objets comme une tâche explicite de raisonnement en chaîne de pensée (CoT). Étant donné une expression de référence, nous identifions d'abord toutes les instances d'objets candidates correspondant à la catégorie d'objet référencée. Rex-Thinker effectue ensuite un raisonnement étape par étape sur chaque candidat pour évaluer s'il correspond à l'expression donnée, avant de faire une prédiction finale. Pour soutenir ce paradigme, nous construisons un jeu de données à grande échelle de référence de style CoT nommé HumanRef-CoT en sollicitant GPT-4o sur le jeu de données HumanRef. Chaque trace de raisonnement suit un format structuré de planification, action et résumé, permettant au modèle d'apprendre un raisonnement décomposé et interprétable sur les candidats objets. Nous entraînons ensuite Rex-Thinker en deux étapes : une phase de réglage fin supervisé à froid pour enseigner au modèle comment effectuer un raisonnement structuré, suivie d'un apprentissage par renforcement basé sur GRPO pour améliorer la précision et la généralisation. Les expériences montrent que notre approche surpasse les références standard en termes de précision et d'interprétabilité lors de l'évaluation en domaine, tout en démontrant une capacité améliorée à rejeter les sorties hallucinées et une forte généralisation dans des contextes hors domaine.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.