ChatPaper.aiChatPaper

Rex-Thinker: Gegrond Objectverwijzing via Ketting-van-Gedachten Redenering

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

June 4, 2025
Auteurs: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI

Samenvatting

Object referring heeft als doel alle objecten in een afbeelding te detecteren die overeenkomen met een gegeven natuurlijke taal beschrijving. Wij stellen dat een robuust object referring model gegrond moet zijn, wat betekent dat zijn voorspellingen zowel verklaarbaar als trouw aan de visuele inhoud moeten zijn. Specifiek moet het twee belangrijke eigenschappen bezitten: 1) Verifieerbaar, door interpreteerbare redeneringen te produceren die zijn voorspellingen rechtvaardigen en deze duidelijk koppelen aan visueel bewijs; en 2) Betrouwbaar, door te leren zich te onthouden wanneer geen enkel object in de afbeelding voldoet aan de gegeven uitdrukking. De meeste methoden behandelen referring echter als een directe bounding box voorspellingstaak, wat beperkte interpreteerbaarheid biedt en moeite heeft om uitdrukkingen zonder overeenkomend object af te wijzen. In dit werk stellen we Rex-Thinker voor, een model dat object referring formuleert als een expliciete CoT redeneertaak. Gegeven een referring uitdrukking, identificeren we eerst alle kandidaat-objectinstanties die overeenkomen met de bedoelde objectcategorie. Rex-Thinker voert vervolgens stap-voor-stap redeneringen uit over elke kandidaat om te beoordelen of deze overeenkomt met de gegeven uitdrukking, voordat een definitieve voorspelling wordt gedaan. Om dit paradigma te ondersteunen, construeren we een grootschalige CoT-stijl referring dataset genaamd HumanRef-CoT door GPT-4o te prompten op de HumanRef dataset. Elke redeneersporen volgt een gestructureerd planning, actie en samenvattingsformaat, waardoor het model geleerde, interpreteerbare redeneringen over objectkandidaten kan uitvoeren. Vervolgens trainen we Rex-Thinker in twee fasen: een cold-start supervised fine-tuning fase om het model te leren hoe het gestructureerde redeneringen moet uitvoeren, gevolgd door GRPO-gebaseerd RL leren om de nauwkeurigheid en generalisatie te verbeteren. Experimenten tonen aan dat onze aanpak standaard baselines overtreft in zowel precisie als interpreteerbaarheid bij in-domein evaluatie, terwijl het ook een verbeterd vermogen toont om gehallucineerde uitvoer af te wijzen en sterke generalisatie in out-of-domein settings.
English
Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
PDF22June 5, 2025