도구 감독 강화 학습을 통한 시각적 추론
Visual Reasoning through Tool-supervised Reinforcement Learning
April 21, 2026
저자: Qihua Dong, Gozde Sahin, Pei Wang, Zhaowei Cai, Robik Shrestha, Hao Yang, Davide Modolo
cs.AI
초록
본 논문에서는 다중모드 대규모 언어 모델이 복잡한 시각적 추론 과제를 해결하기 위해 도구 사용을 효과적으로 숙달하는 방법에 대한 문제를 탐구한다. 이를 위해 보다 효과적인 도구 사용 학습을 위한 직접적인 도구 감독을 특징으로 하는 새로운 도구 감독 강화 학습(ToolsRL) 프레임워크를 제안한다. 우리는 확대, 회전, 뒤집기, 점/선 그리기 등 도구 감독 데이터 수집이 용이한 단순하고 직관적이며 해석 가능한 일련의 시각적 도구에 중점을 둔다. 강화 학습 커리큘럼을 개발하였으며, 첫 단계는 잘 설계된 도구별 보상만으로 최적화하고, 두 번째 단계는 도구 호출을 허용하면서 정확도 목표 보상으로 학습한다. 이를 통해 시각적 추론 과제 수행에 도구를 사용하기 전에 도구 호출 능력을 먼저 숙달함으로써 이질적 과제 간의 잠재적 최적화 충돌을 방지한다. 실험 결과, 도구 감독 커리큘럼 학습이 효율적이며 ToolsRL이 복잡한 시각적 추론 과제에 대해 강력한 도구 사용 능력을 달성할 수 있음을 확인하였다.
English
In this paper, we investigate the problem of how to effectively master tool-use to solve complex visual reasoning tasks for Multimodal Large Language Models. To achieve that, we propose a novel Tool-supervised Reinforcement Learning (ToolsRL) framework, with direct tool supervision for more effective tool-use learning. We focus on a series of simple, native, and interpretable visual tools, including zoom-in, rotate, flip, and draw point/line, whose tool supervision is easy to collect. A reinforcement learning curriculum is developed, where the first stage is solely optimized by a set of well motivated tool-specific rewards, and the second stage is trained with the accuracy targeted rewards while allowing calling tools. In this way, tool calling capability is mastered before using tools to complete visual reasoning tasks, avoiding the potential optimization conflict among those heterogeneous tasks. Our experiments have shown that the tool-supervised curriculum training is efficient and ToolsRL can achieve strong tool-use capabilities for complex visual reasoning tasks.