ChatPaper.aiChatPaper

OpenThinkIMG: Aprendiendo a pensar con imágenes mediante el refuerzo de herramientas visuales

OpenThinkIMG: Learning to Think with Images via Visual Tool Reinforcement Learning

May 13, 2025
Autores: Zhaochen Su, Linjie Li, Mingyang Song, Yunzhuo Hao, Zhengyuan Yang, Jun Zhang, Guanjie Chen, Jiawei Gu, Juntao Li, Xiaoye Qu, Yu Cheng
cs.AI

Resumen

Mientras que los humanos pueden aprovechar de manera flexible la cognición visual interactiva para resolver problemas complejos, habilitar a los Modelos de Lenguaje y Visión de Gran Escala (LVLMs, por sus siglas en inglés) para aprender comportamientos adaptativos similares con herramientas visuales sigue siendo un desafío. Un obstáculo significativo es la actual falta de infraestructura estandarizada, lo que dificulta la integración de diversas herramientas, la generación de datos de interacción ricos y el entrenamiento efectivo de agentes robustos. Para abordar estas brechas, presentamos OpenThinkIMG, el primer marco de trabajo integral de código abierto de extremo a extremo para LVLMs aumentados con herramientas. Este marco cuenta con interfaces estandarizadas para herramientas visuales, generación escalable de trayectorias para la inicialización de políticas y un entorno de entrenamiento flexible. Además, considerando que el ajuste fino supervisado (SFT) en demostraciones estáticas ofrece una generalización limitada de políticas para la invocación dinámica de herramientas, proponemos un novedoso marco de aprendizaje por refuerzo (RL) llamado V-ToolRL para entrenar LVLMs en el aprendizaje de políticas adaptativas para invocar herramientas visuales externas. V-ToolRL permite a los LVLMs descubrir de manera autónoma estrategias óptimas de uso de herramientas optimizando directamente el éxito de la tarea utilizando retroalimentación de las interacciones con las herramientas. Validamos empíricamente V-ToolRL en tareas desafiantes de razonamiento con gráficos. Nuestro agente entrenado con RL, basado en un Qwen2-VL-2B, supera significativamente a su contraparte inicializada con SFT (+28.83 puntos) y supera a los baselines establecidos de aprendizaje supervisado de herramientas como Taco y CogCom en un promedio de +12.7 puntos. Notablemente, también supera a modelos de código cerrado prominentes como GPT-4.1 por +8.68 puntos de precisión. Esperamos que OpenThinkIMG pueda servir como un marco fundamental para avanzar en el razonamiento visual dinámico aumentado con herramientas, ayudando a la comunidad a desarrollar agentes de IA que puedan genuinamente "pensar con imágenes".
English
While humans can flexibly leverage interactive visual cognition for complex problem-solving, enabling Large Vision-Language Models (LVLMs) to learn similarly adaptive behaviors with visual tools remains challenging. A significant hurdle is the current lack of standardized infrastructure, which hinders integrating diverse tools, generating rich interaction data, and training robust agents effectively. To address these gaps, we introduce OpenThinkIMG, the first open-source, comprehensive end-to-end framework for tool-augmented LVLMs. It features standardized vision tool interfaces, scalable trajectory generation for policy initialization, and a flexible training environment. Furthermore, considering supervised fine-tuning (SFT) on static demonstrations offers limited policy generalization for dynamic tool invocation, we propose a novel reinforcement learning (RL) framework V-ToolRL to train LVLMs to learn adaptive policies for invoking external vision tools. V-ToolRL enables LVLMs to autonomously discover optimal tool-usage strategies by directly optimizing for task success using feedback from tool interactions. We empirically validate V-ToolRL on challenging chart reasoning tasks. Our RL-trained agent, built upon a Qwen2-VL-2B, significantly outperforms its SFT-initialized counterpart (+28.83 points) and surpasses established supervised tool-learning baselines like Taco and CogCom by an average of +12.7 points. Notably, it also surpasses prominent closed-source models like GPT-4.1 by +8.68 accuracy points. We hope OpenThinkIMG can serve as a foundational framework for advancing dynamic, tool-augmented visual reasoning, helping the community develop AI agents that can genuinely "think with images".

Summary

AI-Generated Summary

PDF243May 16, 2025