Rex-Thinker: Referência a Objetos Fundamentada por Raciocínio em Cadeia de Pensamentos
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
Autores: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
Resumo
A referência a objetos visa detectar todos os objetos em uma imagem que correspondam a uma descrição em linguagem natural. Argumentamos que um modelo robusto de referência a objetos deve ser fundamentado, significando que suas previsões devem ser tanto explicáveis quanto fiéis ao conteúdo visual. Especificamente, ele deve satisfazer duas propriedades-chave: 1) Verificável, ao produzir raciocínios interpretáveis que justifiquem suas previsões e as liguem claramente a evidências visuais; e 2) Confiável, ao aprender a se abster quando nenhum objeto na imagem satisfaz a expressão dada. No entanto, a maioria dos métodos trata a referência como uma tarefa direta de previsão de caixas delimitadoras, oferecendo interpretabilidade limitada e dificuldade em rejeitar expressões sem objetos correspondentes. Neste trabalho, propomos o Rex-Thinker, um modelo que formula a referência a objetos como uma tarefa explícita de raciocínio CoT (Chain of Thought). Dada uma expressão de referência, primeiro identificamos todas as instâncias de objetos candidatos correspondentes à categoria do objeto referido. O Rex-Thinker então realiza um raciocínio passo a passo sobre cada candidato para avaliar se ele corresponde à expressão dada, antes de fazer uma previsão final. Para apoiar esse paradigma, construímos um grande conjunto de dados de referência no estilo CoT, chamado HumanRef-CoT, ao solicitar ao GPT-4o que gerasse traços de raciocínio no conjunto de dados HumanRef. Cada traço de raciocínio segue um formato estruturado de planejamento, ação e resumo, permitindo que o modelo aprenda raciocínios decompostos e interpretáveis sobre os candidatos a objetos. Em seguida, treinamos o Rex-Thinker em duas etapas: uma fase de ajuste fino supervisionado de inicialização a frio para ensinar o modelo a realizar raciocínios estruturados, seguida por um aprendizado por reforço baseado em GRPO para melhorar a precisão e a generalização. Experimentos mostram que nossa abordagem supera as linhas de base padrão tanto em precisão quanto em interpretabilidade na avaliação em domínio, além de demonstrar uma capacidade aprimorada de rejeitar saídas alucinadas e uma forte generalização em configurações fora do domínio.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.