OpenThinkIMG: 시각적 도구 강화 학습을 통한 이미지 기반 사고 학습
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
May 13, 2025
저자: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI
초록
인간은 복잡한 문제 해결을 위해 상호작용적 시각 인지를 유연하게 활용할 수 있지만, 대형 시각-언어 모델(LVLM)이 시각 도구를 통해 유사한 적응형 행동을 학습하도록 만드는 것은 여전히 어려운 과제입니다. 주요 장애물 중 하나는 현재 표준화된 인프라의 부재로, 이는 다양한 도구 통합, 풍부한 상호작용 데이터 생성, 그리고 강력한 에이전트의 효과적인 학습을 방해합니다. 이러한 격차를 해결하기 위해, 우리는 도구가 강화된 LVLM을 위한 첫 번째 오픈소스 종단 간 프레임워크인 OpenThinkIMG를 소개합니다. 이 프레임워크는 표준화된 시각 도구 인터페이스, 정책 초기화를 위한 확장 가능한 궤적 생성, 그리고 유연한 학습 환경을 특징으로 합니다. 또한, 정적 데모에 대한 지도 미세 조정(SFT)이 동적 도구 호출을 위한 정책 일반화에 제한적이라는 점을 고려하여, 우리는 외부 시각 도구를 호출하기 위한 적응형 정책을 학습하기 위한 새로운 강화 학습(RL) 프레임워크인 V-ToolRL을 제안합니다. V-ToolRL은 도구 상호작용에서의 피드백을 사용하여 작업 성공을 직접 최적화함으로써 LVLM이 최적의 도구 사용 전략을 자율적으로 발견할 수 있도록 합니다. 우리는 V-ToolRL을 도전적인 차트 추론 작업에서 실증적으로 검증했습니다. Qwen2-VL-2B를 기반으로 구축된 우리의 RL 학습 에이전트는 SFT 초기화된 대응 에이전트보다 28.83점 높은 성능을 보였으며, Taco 및 CogCom과 같은 기존의 지도 도구 학습 기준선을 평균 12.7점 앞섰습니다. 특히, GPT-4.1과 같은 주요 폐쇄형 모델보다도 8.68점 높은 정확도를 기록했습니다. 우리는 OpenThinkIMG가 동적 도구 강화 시각 추론을 발전시키기 위한 기초 프레임워크로 활용되어, 커뮤니티가 진정으로 "이미지로 생각하는" AI 에이전트를 개발하는 데 도움이 되기를 바랍니다.
English
While humans can flexibly leverage interactive visual cognition for complex
problem-solving, enabling Large Vision-Language Models (LVLMs) to learn
similarly adaptive behaviors with visual tools remains challenging. A
significant hurdle is the current lack of standardized infrastructure, which
hinders integrating diverse tools, generating rich interaction data, and
training robust agents effectively. To address these gaps, we introduce
OpenThinkIMG, the first open-source, comprehensive end-to-end framework for
tool-augmented LVLMs. It features standardized vision tool interfaces, scalable
trajectory generation for policy initialization, and a flexible training
environment. Furthermore, considering supervised fine-tuning (SFT) on static
demonstrations offers limited policy generalization for dynamic tool
invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL
to train LVLMs to learn adaptive policies for invoking external vision tools.
V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies
by directly optimizing for task success using feedback from tool interactions.
We empirically validate V-ToolRL on challenging chart reasoning tasks. Our
RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its
SFT-initialized counterpart (+28.83 points) and surpasses established
supervised tool-learning baselines like Taco and CogCom by an average of +12.7
points. Notably, it also surpasses prominent closed-source models like GPT-4.1
by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational
framework for advancing dynamic, tool-augmented visual reasoning, helping the
community develop AI agents that can genuinely "think with images".Summary
AI-Generated Summary