Pensando com a Visão da Programação: Rumo a uma Visão Unificada para o Pensamento com Imagens

Resumo

Os modelos de linguagem multimodal (MLLMs) que pensam com imagens podem usar ferramentas interativamente para raciocinar sobre entradas visuais, mas as abordagens atuais frequentemente dependem de um conjunto limitado de ferramentas com pouca necessidade prática e escalabilidade limitada. Neste trabalho, primeiro revelamos uma fragilidade crítica e previamente negligenciada: mesmo os MLLMs mais avançados são surpreendentemente frágeis, apresentando degradação significativa de desempenho em imagens com simples alterações de orientação ou corrupções naturais, destacando a necessidade de um raciocínio baseado em ferramentas mais robusto. Para resolver isso, propomos o CodeVision, uma estrutura flexível e escalável de código-como-ferramenta onde o modelo gera código como interface universal para invocar qualquer operação de imagem, indo além de registros fixos de ferramentas. Treinamos nosso modelo usando uma metodologia de dois estágios, começando com Ajuste Fino Supervisionado (SFT) em um conjunto de dados de alta qualidade curado para composição complexa de ferramentas em múltiplas etapas e recuperação de erros, seguido por Aprendizado por Reforço (RL) com uma nova e densa função de recompensa de processo para incentivar o uso estratégico e eficiente de ferramentas. Para facilitar esta pesquisa, construímos novos conjuntos de dados SFT e RL e introduzimos uma nova suíte de benchmark desafiadora projetada para avaliar rigorosamente a robustez a mudanças de orientação e o raciocínio com múltiplas ferramentas. Experimentos nas séries Qwen2.5-VL e Qwen3-VL mostram que nossa abordagem melhora significativamente o desempenho do modelo e promove capacidades emergentes como composição flexível de ferramentas, execução encadeada eficiente e recuperação robusta de erros a partir de feedback em tempo de execução. O código está disponível em https://github.com/ByteDance-BandAI/CodeVision.

English

Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.

Pensando com a Visão da Programação: Rumo a uma Visão Unificada para o Pensamento com Imagens

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Resumo

Support