ARM-Thinker: Усиление мультимодальных генеративных моделей вознаграждения с помощью инструментального использования агентами и визуального мышления
ARM-Thinker: Reinforcing Multimodal Generative Reward Models with Agentic Tool Use and Visual Reasoning
December 4, 2025
Авторы: Shengyuan Ding, Xinyu Fang, Ziyu Liu, Yuhang Zang, Yuhang Cao, Xiangyu Zhao, Haodong Duan, Xiaoyi Dong, Jianze Liang, Bin Wang, Conghui He, Dahua Lin, Jiaqi Wang
cs.AI
Аннотация
Модели вознаграждения играют ключевую роль в согласовании визуально-языковых систем с человеческими предпочтениями, однако современные подходы страдают от галлюцинаций, слабой визуальной обоснованности и неспособности использовать инструменты для верификации, что ограничивает их надежность в сложных многомодальных задачах рассуждения. Мы представляем ARM-Thinker — агентную многомодальную модель вознаграждения, которая автономно задействует внешние инструменты (например, обрезку изображений, извлечение страниц документов) для обоснования суждений проверяемыми доказательствами, заменяя статическую, неинтерактивную оценку вознаграждения. Это позволяет модели проверять детализированные визуальные особенности, перекрестно ссылаться на многостраничные доказательства и валидировать утверждения рассуждений — возможности, отсутствующие в существующих моделях вознаграждения. Мы обучаем ARM-Thinker с помощью многоэтапного обучения с подкреплением, совместно оптимизируя решения о вызове инструментов и точность суждений. Для оценки агентного моделирования вознаграждения мы представляем ARMBench-VL, включающий три тестовых набора, которые оценивают детализированную визуальную обоснованность (инструменты уровня изображения), понимание многостраничных документов (инструменты поиска) и следование инструкциям (верификация на текстовом уровне). ARM-Thinker демонстрирует среднее улучшение на +16,2% в тестах моделирования вознаграждения, на +9,6% в задачах использования инструментов и превосходит базовые модели в многомодальных тестах на математические и логические рассуждения. Наши результаты показывают, что агентные возможности значительно повышают как точность, так и интерпретируемость моделей вознаграждения.
English
Reward models are critical for aligning vision-language systems with human preferences, yet current approaches suffer from hallucination, weak visual grounding, and an inability to use tools for verification, limiting their reliability on complex multimodal reasoning tasks. We present ARM-Thinker, an A}gentic multimodal Reward Model that autonomously invokes external tools (e.g., image cropping, doc page retrieval) to ground judgments in verifiable evidence, replacing static, non-interactive reward scoring. This enables the model to verify fine-grained visual details, cross-reference multi-page evidence, and validate reasoning claims, which are capabilities absent in existing reward models. We train ARM-Thinker with multi-stage reinforcement learning, jointly optimizing tool-calling decisions and judgment accuracy. To evaluate agentic reward modeling, we introduce ARMBench-VL, comprising three benchmarks that assess fine-grained visual grounding (image-level tools), multi-page document understanding (retrieval tools), and instruction following (text-level verification). ARM-Thinker achieves +16.2% average improvement on reward modeling benchmarks, +9.6% on tool-use tasks, and outperforms baselines on multimodal math and logical reasoning benchmarks. Our results demonstrate that agentic capabilities significantly enhance both accuracy and interpretability of reward models.