ChatPaper.aiChatPaper

Rex-Thinker : Référencement d'objets ancré via un raisonnement en chaîne de pensées

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

June 4, 2025
Auteurs: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI

Résumé

La référence d'objets vise à détecter tous les objets dans une image qui correspondent à une description en langage naturel donnée. Nous soutenons qu'un modèle robuste de référence d'objets devrait être ancré, c'est-à-dire que ses prédictions devraient être à la fois explicables et fidèles au contenu visuel. Plus précisément, il devrait satisfaire deux propriétés clés : 1) Vérifiable, en produisant un raisonnement interprétable qui justifie ses prédictions et les relie clairement à des preuves visuelles ; et 2) Digne de confiance, en apprenant à s'abstenir lorsqu'aucun objet dans l'image ne correspond à l'expression donnée. Cependant, la plupart des méthodes traitent la référence comme une tâche de prédiction directe de boîtes englobantes, offrant une interprétabilité limitée et peinant à rejeter les expressions sans objet correspondant. Dans ce travail, nous proposons Rex-Thinker, un modèle qui formule la référence d'objets comme une tâche explicite de raisonnement en chaîne de pensée (CoT). Étant donné une expression de référence, nous identifions d'abord toutes les instances d'objets candidates correspondant à la catégorie d'objet référencée. Rex-Thinker effectue ensuite un raisonnement étape par étape sur chaque candidat pour évaluer s'il correspond à l'expression donnée, avant de faire une prédiction finale. Pour soutenir ce paradigme, nous construisons un jeu de données à grande échelle de référence de style CoT nommé HumanRef-CoT en sollicitant GPT-4o sur le jeu de données HumanRef. Chaque trace de raisonnement suit un format structuré de planification, action et résumé, permettant au modèle d'apprendre un raisonnement décomposé et interprétable sur les candidats objets. Nous entraînons ensuite Rex-Thinker en deux étapes : une phase de réglage fin supervisé à froid pour enseigner au modèle comment effectuer un raisonnement structuré, suivie d'un apprentissage par renforcement basé sur GRPO pour améliorer la précision et la généralisation. Les expériences montrent que notre approche surpasse les références standard en termes de précision et d'interprétabilité lors de l'évaluation en domaine, tout en démontrant une capacité améliorée à rejeter les sorties hallucinées et une forte généralisation dans des contextes hors domaine.
English
Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
PDF22June 5, 2025