ChatPaper.aiChatPaper

ARM-Thinker : Renforcement des modèles de récompense génératifs multimodaux par l'utilisation agentique d'outils et le raisonnement visuel

ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning

December 4, 2025
papers.authors: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI

papers.abstract

Les modèles de récompense sont essentiels pour aligner les systèmes vision-langage sur les préférences humaines, mais les approches actuelles souffrent d'hallucinations, d'un ancrage visuel faible et d'une incapacité à utiliser des outils de vérification, limitant leur fiabilité sur les tâches de raisonnement multimodal complexes. Nous présentons ARM-Thinker, un modèle de récompense multimodal agentique qui invoque de manière autonome des outils externes (par exemple, le recadrage d'images, la récupération de pages de documents) pour fonder ses jugements sur des preuves vérifiables, remplaçant ainsi l'évaluation statique et non interactive des récompenses. Cela permet au modèle de vérifier des détails visuels fins, de recouper des preuves multi-pages et de valider des affirmations de raisonnement, autant de capacités absentes des modèles de récompense existants. Nous entraînons ARM-Thinker par apprentissage par renforcement multi-étapes, en optimisant conjointement les décisions d'appel d'outils et la précision des jugements. Pour évaluer la modélisation agentique des récompenses, nous introduisons ARMBench-VL, comprenant trois benchmarks évaluant l'ancrage visuel fin (outils au niveau de l'image), la compréhension de documents multi-pages (outils de recherche) et le suivi d'instructions (vérification textuelle). ARM-Thinker obtient une amélioration moyenne de +16,2 % sur les benchmarks de modélisation des récompenses, de +9,6 % sur les tâches d'utilisation d'outils, et surpasse les modèles de référence sur les benchmarks de raisonnement mathématique et logique multimodal. Nos résultats démontrent que les capacités agentiques améliorent significativement à la fois la précision et l'interprétabilité des modèles de récompense.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.
PDF351December 6, 2025