ARM-Thinker: Reforçando Modelos de Recompensa Generativos Multimodais com Uso de Ferramentas Agênticas e Raciocínio Visual
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
Autores: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
Resumo
Os modelos de recompensa são fundamentais para alinhar sistemas de visão e linguagem com as preferências humanas, no entanto, as abordagens atuais sofrem com alucinações, fundamentação visual fraca e incapacidade de usar ferramentas para verificação, limitando sua confiabilidade em tarefas complexas de raciocínio multimodal. Apresentamos o ARM-Thinker, um Modelo de Recompensa multimodal Agêntico que invoca autonomamente ferramentas externas (por exemplo, recorte de imagem, recuperação de páginas de documentos) para fundamentar julgamentos em evidências verificáveis, substituindo a pontuação de recompensa estática e não interativa. Isso permite que o modelo verifique detalhes visuais refinados, consulte evidências multipágina de forma cruzada e valide afirmações de raciocínio, capacidades ausentes nos modelos de recompensa existentes. Treinamos o ARM-Thinker com aprendizado por reforço multietapa, otimizando conjuntamente as decisões de chamada de ferramentas e a precisão do julgamento. Para avaliar a modelagem de recompensa agêntica, introduzimos o ARMBench-VL, compreendendo três benchmarks que avaliam a fundamentação visual refinada (ferramentas em nível de imagem), a compreensão de documentos multipágina (ferramentas de recuperação) e o seguimento de instruções (verificação em nível de texto). O ARM-Thinker alcança uma melhoria média de +16,2% em benchmarks de modelagem de recompensa, +9,6% em tarefas de uso de ferramentas e supera as linhas de base em benchmarks de raciocínio matemático e lógico multimodal. Nossos resultados demonstram que as capacidades agênticas melhoram significativamente tanto a precisão quanto a interpretabilidade dos modelos de recompensa.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.