ChatPaper.aiChatPaper

OpenThinkIMG: Aprendendo a Pensar com Imagens por meio de Reforço Visual de Ferramentas

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Autores: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI

Resumo

Enquanto os humanos podem aproveitar de forma flexível a cognição visual interativa para resolver problemas complexos, permitir que Grandes Modelos de Visão e Linguagem (LVLMs, na sigla em inglês) aprendam comportamentos adaptativos semelhantes com ferramentas visuais continua sendo um desafio. Um obstáculo significativo é a atual falta de infraestrutura padronizada, o que dificulta a integração de diversas ferramentas, a geração de dados ricos de interação e o treinamento eficaz de agentes robustos. Para abordar essas lacunas, introduzimos o OpenThinkIMG, o primeiro framework de código aberto, abrangente e de ponta a ponta para LVLMs aumentados por ferramentas. Ele apresenta interfaces padronizadas para ferramentas visuais, geração escalável de trajetórias para inicialização de políticas e um ambiente de treinamento flexível. Além disso, considerando que o ajuste fino supervisionado (SFT) em demonstrações estáticas oferece generalização limitada de políticas para invocação dinâmica de ferramentas, propomos um novo framework de aprendizado por reforço (RL), o V-ToolRL, para treinar LVLMs a aprender políticas adaptativas para invocar ferramentas visuais externas. O V-ToolRL permite que os LVLMs descubram autonomamente estratégias ótimas de uso de ferramentas, otimizando diretamente para o sucesso da tarefa com base no feedback das interações com as ferramentas. Validamos empiricamente o V-ToolRL em tarefas desafiadoras de raciocínio em gráficos. Nosso agente treinado com RL, baseado em um Qwen2-VL-2B, supera significativamente sua contraparte inicializada com SFT (+28,83 pontos) e ultrapassa baselines estabelecidos de aprendizado de ferramentas supervisionadas, como Taco e CogCom, em média +12,7 pontos. Notavelmente, ele também supera modelos proprietários proeminentes, como o GPT-4.1, por +8,68 pontos de precisão. Esperamos que o OpenThinkIMG possa servir como um framework fundamental para avançar o raciocínio visual dinâmico aumentado por ferramentas, ajudando a comunidade a desenvolver agentes de IA que possam genuinamente "pensar com imagens".
English
While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".
PDF413May 16, 2025