ARM-Thinker: Verstärkung multimodaler generativer Belohnungsmodelle durch agentische Werkzeugnutzung und visuelles Denken
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
papers.authors: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
papers.abstract
Belohnungsmodelle sind entscheidend für die Ausrichtung von Vision-Language-Systemen an menschlichen Präferenzen, doch aktuelle Ansätze leiden unter Halluzinationen, schwacher visueller Verankerung und der Unfähigkeit, Werkzeuge zur Verifikation zu nutzen, was ihre Zuverlässigkeit bei komplexen multimodalen Reasoning-Aufgaben einschränkt. Wir präsentieren ARM-Thinker, ein agentisches multimodales Belohnungsmodell, das eigenständig externe Werkzeuge (z.B. Bildausschnitte, Dokumentenseiten-Retrieval) aufruft, um Urteile in überprüfbaren Evidenzen zu verankern, anstatt statische, nicht-interaktive Belohnungsbewertungen zu verwenden. Dies ermöglicht dem Modell, feinkörnige visuelle Details zu verifizieren, mehrseitige Evidenzen gegenzuprüfen und Reasoning-Behauptungen zu validieren – Fähigkeiten, die in bestehenden Belohnungsmodellen fehlen. Wir trainieren ARM-Thinker mit mehrstufigem Reinforcement Learning, das Werkzeugaufruf-Entscheidungen und Urteilsgenauigkeit gemeinsam optimiert. Zur Evaluierung agentischer Belohnungsmodellierung führen wir ARMBench-VL ein, bestehend aus drei Benchmarks, die feinkörnige visuelle Verankerung (Bildwerkzeuge), mehrseitiges Dokumentenverständnis (Retrieval-Werkzeuge) und Instruktionsbefolgung (Textverifikation) bewerten. ARM-Thinker erzielt eine durchschnittliche Verbesserung von +16,2 % auf Belohnungsmodellierungs-Benchmarks, +9,6 % bei Werkzeugnutzungsaufgaben und übertrifft Baseline-Modelle auf multimodalen Mathematik- und logischen Reasoning-Benchmarks. Unsere Ergebnisse demonstrieren, dass agentische Fähigkeiten sowohl die Genauigkeit als auch die Interpretierbarkeit von Belohnungsmodellen signifikant verbessern.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.