Rex-Thinker: Referencia a Objetos Fundamentada mediante Razonamiento en Cadena de Pensamiento
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
Autores: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
Resumen
La referencia a objetos tiene como objetivo detectar todos los objetos en una imagen que coincidan con una descripción en lenguaje natural. Argumentamos que un modelo robusto de referencia a objetos debe estar fundamentado, lo que significa que sus predicciones deben ser tanto explicables como fieles al contenido visual. Específicamente, debería satisfacer dos propiedades clave: 1) Verificable, al producir un razonamiento interpretable que justifique sus predicciones y las vincule claramente con la evidencia visual; y 2) Confiable, al aprender a abstenerse cuando ningún objeto en la imagen satisface la expresión dada. Sin embargo, la mayoría de los métodos tratan la referencia como una tarea directa de predicción de cuadros delimitadores, ofreciendo una interpretabilidad limitada y dificultades para rechazar expresiones sin un objeto coincidente. En este trabajo, proponemos Rex-Thinker, un modelo que formula la referencia a objetos como una tarea explícita de razonamiento CoT (Chain-of-Thought). Dada una expresión de referencia, primero identificamos todas las instancias de objetos candidatos correspondientes a la categoría del objeto referido. Luego, Rex-Thinker realiza un razonamiento paso a paso sobre cada candidato para evaluar si coincide con la expresión dada, antes de hacer una predicción final. Para apoyar este paradigma, construimos un conjunto de datos a gran escala de referencia estilo CoT llamado HumanRef-CoT, utilizando GPT-4o sobre el conjunto de datos HumanRef. Cada traza de razonamiento sigue un formato estructurado de planificación, acción y resumen, permitiendo que el modelo aprenda un razonamiento descompuesto e interpretable sobre los candidatos de objetos. Entrenamos Rex-Thinker en dos etapas: una fase de ajuste fino supervisado de arranque en frío para enseñar al modelo cómo realizar un razonamiento estructurado, seguida de un aprendizaje por refuerzo basado en GRPO para mejorar la precisión y la generalización. Los experimentos muestran que nuestro enfoque supera a los baselines estándar tanto en precisión como en interpretabilidad en la evaluación dentro del dominio, mientras que también demuestra una capacidad mejorada para rechazar salidas alucinadas y una fuerte generalización en entornos fuera del dominio.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.