ARM-Thinker: 에이전트 도구 활용 및 시각적 추론을 통한 다중모달 생성 보상 모델 강화
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
저자: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
초록
보상 모델은 시각-언어 시스템을 인간의 선호에 맞추는 데 핵심적이지만, 기존 접근법은 허구적 응답, 약한 시각적 근거화, 검증을 위한 도구 활용 불가능 등의 한계로 인해 복잡한 다중모드 추론 과제에서 신뢰성이 낮습니다. 본 연구에서는 정적이고 비상호작용적인 보상 점수 방식을 대체하여, 외부 도구(이미지 크롭, 문서 페이지 검색 등)를 자율적으로 호출하여 검증 가능한 증거에 기반한 판단을 근거화하는 에이전트형 다중모드 보상 모델인 ARM-Thinker를 제안합니다. 이를 통해 기존 보상 모델에서 부재했던 세부 시각 정보 검증, 다중 페이지 증거 상호 참조, 추론 주장 검증 등의 능력을 구현합니다. 우리는 ARM-Thinker를 다단계 강화 학습으로 훈련하여 도구 호출 결정과 판단 정확도를 공동으로 최적화합니다. 에이전트형 보상 모델링 평가를 위해 세 가지 벤치마크(세부 시각 근거화(이미지 수준 도구), 다중 페이지 문서 이해(검색 도구), 지시 따르기(텍스트 수준 검증)를 평가하는 ARMBench-VL을 도입했습니다. ARM-Thinker는 보상 모델링 벤치마크에서 평균 +16.2%, 도구 사용 과제에서 +9.6%의 성능 향상을 달성했으며, 다중모드 수학 및 논리 추론 벤치마크에서 기준 모델들을 능가했습니다. 우리의 결과는 에이전트 능력이 보상 모델의 정확성과 해석 가능성을 모두 크게 향상시킴을 입증합니다.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.