Rex-Thinker: Verankerte Objektreferenzierung durch Chain-of-Thought-Argumentation
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
Autoren: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
Zusammenfassung
Das Ziel der Objektreferenzierung besteht darin, alle Objekte in einem Bild zu erkennen, die einer gegebenen natürlichen Sprachbeschreibung entsprechen. Wir argumentieren, dass ein robustes Objektreferenzierungsmodell fundiert sein sollte, was bedeutet, dass seine Vorhersagen sowohl erklärbar als auch treu zum visuellen Inhalt sein sollten. Konkret sollte es zwei Schlüsseleigenschaften erfüllen: 1) Verifizierbar, indem es interpretierbare Begründungen liefert, die seine Vorhersagen rechtfertigen und sie klar mit visuellen Beweisen verknüpfen; und 2) Vertrauenswürdig, indem es lernt, sich zurückzuhalten, wenn kein Objekt im Bild der gegebenen Beschreibung entspricht. Die meisten Methoden behandeln die Referenzierung jedoch als direkte Bounding-Box-Vorhersageaufgabe, was nur begrenzte Interpretierbarkeit bietet und Schwierigkeiten hat, Ausdrücke ohne passendes Objekt abzulehnen. In dieser Arbeit schlagen wir Rex-Thinker vor, ein Modell, das die Objektreferenzierung als explizite Chain-of-Thought (CoT)-Denkaufgabe formuliert. Bei einer Referenzierungsbeschreibung identifizieren wir zunächst alle Kandidatenobjektinstanzen, die der referenzierten Objektkategorie entsprechen. Rex-Thinker führt dann schrittweise Überlegungen für jeden Kandidaten durch, um zu bewerten, ob er der gegebenen Beschreibung entspricht, bevor eine endgültige Vorhersage getroffen wird. Um dieses Paradigma zu unterstützen, erstellen wir einen groß angelegten CoT-stiligen Referenzierungsdatensatz namens HumanRef-CoT, indem wir GPT-4o auf dem HumanRef-Datensatz anweisen. Jede Denkspur folgt einem strukturierten Planungs-, Handlungs- und Zusammenfassungsformat, wodurch das Modell dekomponierte, interpretierbare Überlegungen über Objektkandidaten lernen kann. Anschließend trainieren wir Rex-Thinker in zwei Phasen: einer kaltstartigen überwachten Feinabstimmungsphase, um dem Modell beizubringen, wie es strukturierte Überlegungen durchführt, gefolgt von GRPO-basiertem Reinforcement Learning, um die Genauigkeit und Generalisierung zu verbessern. Experimente zeigen, dass unser Ansatz Standard-Benchmarks sowohl in der Präzision als auch in der Interpretierbarkeit bei der In-Domain-Evaluierung übertrifft, während er auch eine verbesserte Fähigkeit zur Ablehnung von halluzinierten Ausgaben und eine starke Generalisierung in Out-of-Domain-Szenarien demonstriert.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.