ChatPaper.aiChatPaper

Rex-Thinker: Referência a Objetos Fundamentada por Raciocínio em Cadeia de Pensamentos

Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning

June 4, 2025
Autores: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI

Resumo

A referência a objetos visa detectar todos os objetos em uma imagem que correspondam a uma descrição em linguagem natural. Argumentamos que um modelo robusto de referência a objetos deve ser fundamentado, significando que suas previsões devem ser tanto explicáveis quanto fiéis ao conteúdo visual. Especificamente, ele deve satisfazer duas propriedades-chave: 1) Verificável, ao produzir raciocínios interpretáveis que justifiquem suas previsões e as liguem claramente a evidências visuais; e 2) Confiável, ao aprender a se abster quando nenhum objeto na imagem satisfaz a expressão dada. No entanto, a maioria dos métodos trata a referência como uma tarefa direta de previsão de caixas delimitadoras, oferecendo interpretabilidade limitada e dificuldade em rejeitar expressões sem objetos correspondentes. Neste trabalho, propomos o Rex-Thinker, um modelo que formula a referência a objetos como uma tarefa explícita de raciocínio CoT (Chain of Thought). Dada uma expressão de referência, primeiro identificamos todas as instâncias de objetos candidatos correspondentes à categoria do objeto referido. O Rex-Thinker então realiza um raciocínio passo a passo sobre cada candidato para avaliar se ele corresponde à expressão dada, antes de fazer uma previsão final. Para apoiar esse paradigma, construímos um grande conjunto de dados de referência no estilo CoT, chamado HumanRef-CoT, ao solicitar ao GPT-4o que gerasse traços de raciocínio no conjunto de dados HumanRef. Cada traço de raciocínio segue um formato estruturado de planejamento, ação e resumo, permitindo que o modelo aprenda raciocínios decompostos e interpretáveis sobre os candidatos a objetos. Em seguida, treinamos o Rex-Thinker em duas etapas: uma fase de ajuste fino supervisionado de inicialização a frio para ensinar o modelo a realizar raciocínios estruturados, seguida por um aprendizado por reforço baseado em GRPO para melhorar a precisão e a generalização. Experimentos mostram que nossa abordagem supera as linhas de base padrão tanto em precisão quanto em interpretabilidade na avaliação em domínio, além de demonstrar uma capacidade aprimorada de rejeitar saídas alucinadas e uma forte generalização em configurações fora do domínio.
English
Object referring aims to detect all objects in an image that match a given natural language description. We argue that a robust object referring model should be grounded, meaning its predictions should be both explainable and faithful to the visual content. Specifically, it should satisfy two key properties: 1) Verifiable, by producing interpretable reasoning that justifies its predictions and clearly links them to visual evidence; and 2) Trustworthy, by learning to abstain when no object in the image satisfies the given expression. However, most methods treat referring as a direct bounding box prediction task, offering limited interpretability and struggling to reject expressions with no matching object. In this work, we propose Rex-Thinker, a model that formulates object referring as an explicit CoT reasoning task. Given a referring expression, we first identify all candidate object instances corresponding to the referred object category. Rex-Thinker then performs step-by-step reasoning over each candidate to assess whether it matches the given expression, before making a final prediction. To support this paradigm, we construct a large-scale CoT-style referring dataset named HumanRef-CoT by prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a structured planning, action, and summarization format, enabling the model to learn decomposed, interpretable reasoning over object candidates. We then train Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach the model how to perform structured reasoning, followed by GRPO-based RL learning to improve accuracy and generalization. Experiments show that our approach outperforms standard baselines in both precision and interpretability on in-domain evaluation, while also demonstrating improved ability to reject hallucinated outputs and strong generalization in out-of-domain settings.
PDF22June 5, 2025