ARM-Thinker: Versterking van Multimodale Generatieve Beloningsmodellen met Agentisch Gereedschapsgebruik en Visueel Redeneren
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
Auteurs: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
Samenvatting
Beloningsmodellen zijn cruciaal voor het afstemmen van visie-taalsystemen op menselijke voorkeuren, maar huidige methoden lijden onder hallucinaties, zwakke visuele verankering en het onvermogen om tools te gebruiken voor verificatie, wat hun betrouwbaarheid bij complexe multimodale redeneertaken beperkt. Wij presenteren ARM-Thinker, een *agentic* multimodaal Beloningsmodel dat autonoom externe tools (bijv. beeldbijsnijding, documentpaginaretrieval) aanroept om oordelen te verankeren in verifieerbaar bewijs, waardoor statische, niet-interactieve beloningsscores worden vervangen. Hierdoor kan het model fijnmazige visuele details verifiëren, meerdere pagina's bewijs kruisverwijzen en redeneerclaims valideren – mogelijkheden die ontbreken in bestaande beloningsmodellen. We trainen ARM-Thinker met meerfasige reinforcement learning, waarbij we tool-aanroepbeslissingen en beoordelingsnauwkeurigheid gezamenlijk optimaliseren. Om *agentic* beloningsmodellering te evalueren, introduceren we ARMBench-VL, bestaande uit drie benchmarks die fijnmazige visuele verankering (beeldniveau-tools), documentbegrip over meerdere pagina's (retrievaltools) en instructie-opvolging (tekstniveau-verificatie) beoordelen. ARM-Thinker behaalt een gemiddelde verbetering van +16,2% op beloningsmodelbenchmarks, +9,6% op toolgebruiktaken, en presteert beter dan baseline-modellen op multimodale wiskunde- en logische redeneerbenchmarks. Onze resultaten tonen aan dat *agentic* capaciteiten zowel de nauwkeurigheid als de interpreteerbaarheid van beloningsmodellen aanzienlijk verbeteren.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.