Pensar con Visión Programática: Hacia una Visión Unificada para Pensar con Imágenes

Resumen

Los modelos de lenguaje grandes multimodales (MLLMs) que piensan con imágenes pueden utilizar herramientas de forma interactiva para razonar sobre entradas visuales, pero los enfoques actuales a menudo dependen de un conjunto limitado de herramientas con escasa necesidad y escalabilidad en el mundo real. En este trabajo, primero revelamos una debilidad crítica y previamente pasada por alto: incluso los MLLMs más avanzados son sorprendentemente frágiles, mostrando una degradación significativa del rendimiento en imágenes con simples cambios de orientación o corrupciones naturales, lo que subraya la necesidad de un razonamiento basado en herramientas más robusto. Para abordar esto, proponemos CodeVision, un marco flexible y escalable de código-como-herramienta donde el modelo genera código como interfaz universal para invocar cualquier operación de imagen, superando los registros de herramientas fijos. Entrenamos nuestro modelo utilizando una metodología de dos etapas, comenzando con el Ajuste Fino Supervisado (SFT) en un conjunto de datos de alta calidad seleccionado para la composición compleja de herramientas en múltiples turnos y la recuperación de errores, seguido de Aprendizaje por Refuerzo (RL) con una función de recompensa de proceso novedosa y densa para fomentar un uso estratégico y eficiente de las herramientas. Para facilitar esta investigación, construimos nuevos conjuntos de datos SFT y RL e introducimos un nuevo y desafiante conjunto de puntos de referencia diseñado para evaluar rigurosamente la robustez frente a cambios de orientación y el razonamiento con múltiples herramientas. Los experimentos en las series Qwen2.5-VL y Qwen3-VL muestran que nuestro enfoque mejora significativamente el rendimiento del modelo y fomenta capacidades emergentes como la composición flexible de herramientas, la ejecución encadenada eficiente y la recuperación robusta de errores a partir de retroalimentación en tiempo de ejecución. El código está disponible en https://github.com/ByteDance-BandAI/CodeVision.

English

Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.

Pensar con Visión Programática: Hacia una Visión Unificada para Pensar con Imágenes

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Resumen

Support