ChatPaper.aiChatPaper

Rex-Thinker: Riferimento a oggetti basato su ragionamento a catena di pensiero

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

June 4, 2025
Autori: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI

Abstract

Il riferimento a oggetti mira a rilevare tutti gli oggetti in un'immagine che corrispondono a una descrizione in linguaggio naturale. Sosteniamo che un modello robusto per il riferimento a oggetti dovrebbe essere fondato, nel senso che le sue previsioni dovrebbero essere sia spiegabili che fedeli al contenuto visivo. Nello specifico, dovrebbe soddisfare due proprietà chiave: 1) Verificabile, producendo un ragionamento interpretabile che giustifichi le sue previsioni e le colleghi chiaramente all'evidenza visiva; e 2) Affidabile, imparando ad astenersi quando nessun oggetto nell'immagine soddisfa l'espressione data. Tuttavia, la maggior parte dei metodi tratta il riferimento come un compito diretto di previsione di bounding box, offrendo una limitata interpretabilità e faticando a rifiutare espressioni senza oggetti corrispondenti. In questo lavoro, proponiamo Rex-Thinker, un modello che formula il riferimento a oggetti come un compito esplicito di ragionamento a catena di pensiero (CoT). Data un'espressione di riferimento, identifichiamo prima tutte le istanze di oggetti candidati corrispondenti alla categoria di oggetto riferita. Rex-Thinker esegue quindi un ragionamento passo-passo su ciascun candidato per valutare se corrisponde all'espressione data, prima di fare una previsione finale. Per supportare questo paradigma, costruiamo un dataset su larga scala di riferimento in stile CoT, denominato HumanRef-CoT, utilizzando GPT-4o sul dataset HumanRef. Ogni traccia di ragionamento segue un formato strutturato di pianificazione, azione e riepilogo, consentendo al modello di apprendere un ragionamento scomposto e interpretabile sui candidati oggetto. Addestriamo quindi Rex-Thinker in due fasi: una fase iniziale di fine-tuning supervisionato per insegnare al modello come eseguire un ragionamento strutturato, seguita da un apprendimento RL basato su GRPO per migliorare l'accuratezza e la generalizzazione. Gli esperimenti mostrano che il nostro approccio supera i baseline standard sia in precisione che in interpretabilità nella valutazione in dominio, dimostrando anche una migliore capacità di rifiutare output allucinati e una forte generalizzazione in contesti fuori dominio.
English
Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
PDF22June 5, 2025