Rex-Thinker: Основанное на объектах указание через цепочку рассуждений
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
Авторы: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
Аннотация
Задача ссылания на объекты заключается в обнаружении всех объектов на изображении, которые соответствуют заданному описанию на естественном языке. Мы утверждаем, что надежная модель для ссылания на объекты должна быть обоснованной, то есть её предсказания должны быть как объяснимыми, так и соответствующими визуальному содержанию. В частности, она должна удовлетворять двум ключевым свойствам: 1) **Проверяемость** — модель должна предоставлять интерпретируемое обоснование, которое подтверждает её предсказания и явно связывает их с визуальными доказательствами; 2) **Достоверность** — модель должна уметь воздерживаться от предсказаний, если в изображении нет объекта, соответствующего заданному описанию. Однако большинство методов рассматривают ссылание как задачу прямого предсказания ограничивающих рамок, что ограничивает интерпретируемость и затрудняет отклонение описаний, не имеющих соответствия в изображении. В данной работе мы предлагаем модель **Rex-Thinker**, которая формулирует задачу ссылания на объекты как явную задачу рассуждения по цепочке мыслей (CoT). Для заданного описания сначала идентифицируются все кандидаты на объекты, соответствующие указанной категории. Затем Rex-Thinker выполняет пошаговое рассуждение для каждого кандидата, чтобы оценить, соответствует ли он заданному описанию, прежде чем сделать окончательное предсказание. Для поддержки этого подхода мы создаем крупномасштабный набор данных в стиле CoT под названием **HumanRef-CoT**, используя GPT-4o для генерации на основе набора данных HumanRef. Каждый след рассуждения следует структурированному формату планирования, действия и обобщения, что позволяет модели изучать декомпозированное и интерпретируемое рассуждение для кандидатов на объекты. Мы обучаем Rex-Thinker в два этапа: начальная фаза контролируемого тонкого настройки для обучения модели структурированному рассуждению, за которой следует обучение с подкреплением на основе GRPO для повышения точности и обобщаемости. Эксперименты показывают, что наш подход превосходит стандартные базовые методы как по точности, так и по интерпретируемости при оценке в рамках домена, а также демонстрирует улучшенную способность отклонять ошибочные предсказания и сильную обобщаемость в условиях вне домена.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.