ARM-Thinker: Rafforzamento dei Modelli di Ricompensa Generativi Multimodali con l'Utilizzo Strumentale Agente e il Ragionamento Visivo
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
Autori: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
Abstract
I modelli di reward sono fondamentali per allineare i sistemi visione-linguaggio alle preferenze umane, tuttavia gli approcci attuali soffrono di allucinazioni, debole grounding visivo e incapacità di utilizzare strumenti per la verifica, limitando la loro affidabilità in compiti complessi di ragionamento multimodale. Presentiamo ARM-Thinker, un modello di reward multimodale Agente che invoca autonomamente strumenti esterni (ad esempio, ritaglio di immagini, recupero di pagine documentali) per fondare i giudizi su evidenze verificabili, sostituendo la valutazione di reward statica e non interattiva. Ciò consente al modello di verificare dettagli visivi granulari, incrociare evidenze multipagina e convalidare asserzioni di ragionamento, capacità assenti nei modelli di reward esistenti. Addestriamo ARM-Thinker con apprendimento per rinforzo multi-stadio, ottimizzando congiuntamente le decisioni di chiamata degli strumenti e l'accuratezza del giudizio. Per valutare la modellazione di reward agente, introduciamo ARMBench-VL, comprendente tre benchmark che valutano il grounding visivo granulare (strumenti a livello di immagine), la comprensione di documenti multipagina (strumenti di retrieval) e il rispetto delle istruzioni (verifica a livello testuale). ARM-Thinker ottiene un miglioramento medio del +16,2% sui benchmark di modellazione del reward, +9,6% sui compiti di uso degli strumenti e supera i baseline su benchmark di ragionamento matematico e logico multimodale. I nostri risultati dimostrano che le capacità agentiche migliorano significativamente sia l'accuratezza che l'interpretabilità dei modelli di reward.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.