ARM-Thinker: Reforzando Modelos de Recompensa Generativos Multimodales con Uso de Herramientas Agéntico y Razonamiento Visual
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
Autores: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
Resumen
Los modelos de recompensa son cruciales para alinear los sistemas de visión y lenguaje con las preferencias humanas, sin embargo, los enfoques actuales adolecen de alucinaciones, un anclaje visual débil y la incapacidad de utilizar herramientas para la verificación, lo que limita su fiabilidad en tareas complejas de razonamiento multimodal. Presentamos ARM-Thinker, un Modelo de Recompensa multimodal Agéntico que invoca de forma autónoma herramientas externas (por ejemplo, recorte de imágenes, recuperación de páginas de documentos) para fundamentar sus juicios en evidencia verificable, reemplazando la puntuación de recompensa estática y no interactiva. Esto permite al modelo verificar detalles visuales de grano fino, realizar referencias cruzadas de evidencia multipágina y validar afirmaciones de razonamiento, capacidades ausentes en los modelos de recompensa existentes. Entrenamos ARM-Thinker con aprendizaje por refuerzo multietapa, optimizando conjuntamente las decisiones de invocación de herramientas y la precisión del juicio. Para evaluar el modelado de recompensa agéntico, presentamos ARMBench-VL, que comprende tres puntos de referencia que evalúan el anclaje visual de grano fino (herramientas a nivel de imagen), la comprensión de documentos multipágina (herramientas de recuperación) y el seguimiento de instrucciones (verificación a nivel de texto). ARM-Thinker logra una mejora promedio de +16.2% en los benchmarks de modelado de recompensa, +9.6% en tareas de uso de herramientas, y supera a los baselines en benchmarks de razonamiento matemático y lógico multimodal. Nuestros resultados demuestran que las capacidades agénticas mejoran significativamente tanto la precisión como la interpretabilidad de los modelos de recompensa.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.