OpenThinkIMG: Обучение мышлению с помощью изображений через визуальный инструмент с использованием обучения с подкреплением
OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning
May 13, 2025
Авторы: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI
Аннотация
Хотя люди могут гибко использовать интерактивное визуальное познание для решения сложных задач, обучение крупных моделей, работающих с визуальными и языковыми данными (LVLMs), аналогичным адаптивным поведением с использованием визуальных инструментов остается сложной задачей. Значительным препятствием является отсутствие стандартизированной инфраструктуры, что затрудняет интеграцию разнообразных инструментов, генерацию богатых данных взаимодействия и эффективное обучение устойчивых агентов. Для устранения этих пробелов мы представляем OpenThinkIMG — первую открытую, комплексную сквозную платформу для LVLMs, усиленных инструментами. Она включает стандартизированные интерфейсы для визуальных инструментов, масштабируемую генерацию траекторий для инициализации политик и гибкую среду обучения. Кроме того, учитывая, что контролируемая тонкая настройка (SFT) на статических демонстрациях ограничивает обобщение политик для динамического вызова инструментов, мы предлагаем новую платформу обучения с подкреплением (RL) V-ToolRL для обучения LVLMs адаптивным политикам вызова внешних визуальных инструментов. V-ToolRL позволяет LVLMs автономно находить оптимальные стратегии использования инструментов, напрямую оптимизируя успешность выполнения задач на основе обратной связи от взаимодействия с инструментами. Мы эмпирически подтверждаем эффективность V-ToolRL на сложных задачах анализа графиков. Наш агент, обученный с использованием RL на основе модели Qwen2-VL-2B, значительно превосходит своего аналога, инициализированного с помощью SFT (+28,83 балла), и опережает установленные контролируемые базовые подходы для обучения с инструментами, такие как Taco и CogCom, в среднем на +12,7 балла. Примечательно, что он также превосходит известные закрытые модели, такие как GPT-4.1, на +8,68 балла точности. Мы надеемся, что OpenThinkIMG станет основополагающей платформой для продвижения динамического визуального рассуждения с использованием инструментов, помогая сообществу разрабатывать ИИ-агентов, которые действительно могут "мыслить изображениями".
English
While humans can flexibly leverage interactive visual cognition for complex
problem-solving, enabling Large Vision-Language Models (LVLMs) to learn
similarly adaptive behaviors with visual tools remains challenging. A
significant hurdle is the current lack of standardized infrastructure, which
hinders integrating diverse tools, generating rich interaction data, and
training robust agents effectively. To address these gaps, we introduce
OpenThinkIMG, the first open-source, comprehensive end-to-end framework for
tool-augmented LVLMs. It features standardized vision tool interfaces, scalable
trajectory generation for policy initialization, and a flexible training
environment. Furthermore, considering supervised fine-tuning (SFT) on static
demonstrations offers limited policy generalization for dynamic tool
invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL
to train LVLMs to learn adaptive policies for invoking external vision tools.
V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies
by directly optimizing for task success using feedback from tool interactions.
We empirically validate V-ToolRL on challenging chart reasoning tasks. Our
RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its
SFT-initialized counterpart (+28.83 points) and surpasses established
supervised tool-learning baselines like Taco and CogCom by an average of +12.7
points. Notably, it also surpasses prominent closed-source models like GPT-4.1
by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational
framework for advancing dynamic, tool-augmented visual reasoning, helping the
community develop AI agents that can genuinely "think with images".Summary
AI-Generated Summary