Rex-Thinker: 사고의 연쇄적 추론을 통한 객체 참조
Rex-Thinker: Grounded Object Referring via Chain-of-Thought Reasoning
June 4, 2025
저자: Qing Jiang, Xingyu Chen, Zhaoyang Zeng, Junzhi Yu, Lei Zhang
cs.AI
초록
객체 참조(Object referring)는 주어진 자연어 설명과 일치하는 이미지 내 모든 객체를 탐지하는 것을 목표로 합니다. 우리는 강력한 객체 참조 모델이 시각적 내용에 대해 설명 가능하고 충실한, 즉 'grounded' 상태여야 한다고 주장합니다. 구체적으로, 이러한 모델은 두 가지 핵심 속성을 충족해야 합니다: 1) **검증 가능성**: 예측을 정당화하는 해석 가능한 추론을 생성하고 이를 시각적 증거와 명확히 연결해야 함, 2) **신뢰성**: 주어진 표현을 만족하는 객체가 이미지에 없을 때 예측을 자제할 수 있어야 함. 그러나 대부분의 방법은 참조를 직접적인 바운딩 박스 예측 작업으로 취급하여 해석 가능성이 제한적이며, 일치하는 객체가 없는 표현을 거부하는 데 어려움을 겪습니다. 본 연구에서는 객체 참조를 명시적인 CoT(Chain-of-Thought) 추론 작업으로 공식화한 Rex-Thinker 모델을 제안합니다. 참조 표현이 주어지면, 먼저 참조된 객체 카테고리에 해당하는 모든 후보 객체 인스턴스를 식별합니다. 이후 Rex-Thinker는 각 후보에 대해 단계별 추론을 수행하여 주어진 표현과 일치하는지 평가한 후 최종 예측을 합니다. 이를 지원하기 위해, HumanRef 데이터셋에 GPT-4o를 활용하여 대규모 CoT 스타일 참조 데이터셋인 HumanRef-CoT를 구축했습니다. 각 추론 흔적은 구조화된 계획, 행동, 요약 형식을 따르며, 이를 통해 모델이 객체 후보에 대해 분해 가능하고 해석 가능한 추론을 학습할 수 있도록 합니다. 그런 다음 Rex-Thinker를 두 단계로 학습시킵니다: 구조화된 추론을 수행하는 방법을 가르치는 감독된 미세 조정 단계와, 정확도와 일반화 능력을 향상시키기 위한 GRPO 기반 강화 학습 단계입니다. 실험 결과, 우리의 접근 방식은 도메인 내 평가에서 정밀도와 해석 가능성 모두에서 표준 베이스라인을 능가하며, 허구적인 출력을 거부하는 능력과 도메인 외 설정에서의 강력한 일반화 능력도 보여줍니다.
English
Object referring aims to detect all objects in an image that match a given
natural language description. We argue that a robust object referring model
should be grounded, meaning its predictions should be both explainable and
faithful to the visual content. Specifically, it should satisfy two key
properties: 1) Verifiable, by producing interpretable reasoning that justifies
its predictions and clearly links them to visual evidence; and 2) Trustworthy,
by learning to abstain when no object in the image satisfies the given
expression. However, most methods treat referring as a direct bounding box
prediction task, offering limited interpretability and struggling to reject
expressions with no matching object. In this work, we propose Rex-Thinker, a
model that formulates object referring as an explicit CoT reasoning task. Given
a referring expression, we first identify all candidate object instances
corresponding to the referred object category. Rex-Thinker then performs
step-by-step reasoning over each candidate to assess whether it matches the
given expression, before making a final prediction. To support this paradigm,
we construct a large-scale CoT-style referring dataset named HumanRef-CoT by
prompting GPT-4o on the HumanRef dataset. Each reasoning trace follows a
structured planning, action, and summarization format, enabling the model to
learn decomposed, interpretable reasoning over object candidates. We then train
Rex-Thinker in two stages: a cold-start supervised fine-tuning phase to teach
the model how to perform structured reasoning, followed by GRPO-based RL
learning to improve accuracy and generalization. Experiments show that our
approach outperforms standard baselines in both precision and interpretability
on in-domain evaluation, while also demonstrating improved ability to reject
hallucinated outputs and strong generalization in out-of-domain settings.