Pensare con la Visione della Programmazione: Verso una Prospettiva Unificata per il Pensiero con le Immagini

Abstract

I modelli linguistici multimodali (MLLM) che ragionano con le immagini possono utilizzare strumenti in modo interattivo per elaborare input visivi, ma gli approcci attuali si basano spesso su un insieme ristretto di strumenti con necessità e scalabilità reali limitate. In questo lavoro, riveliamo innanzitutto una critica e precedentemente trascurata debolezza: persino gli MLLM all'avanguardia sono sorprendentemente fragili, mostrando un significativo degrado delle prestazioni su immagini con semplici cambiamenti di orientamento o corruzioni naturali, sottolineando la necessità di un ragionamento basato su strumenti più robusto. Per affrontare questo problema, proponiamo CodeVision, un framework flessibile e scalabile in cui il codice funge da strumento universale, dove il modello genera codice come interfaccia universale per richiamare qualsiasi operazione sulle immagini, superando i registri di strumenti fissi. Addestriamo il nostro modello utilizzando una metodologia in due fasi, iniziando con un Fine-Tuning Supervisionato (SFT) su un dataset di alta qualità curato per composizione complessa e multi-turno di strumenti e recupero degli errori, seguito da Apprendimento per Rinforzo (RL) con una nuova e densa funzione di ricompensa di processo per incentivare un uso strategico ed efficiente degli strumenti. Per facilitare questa ricerca, costruiamo nuovi dataset per SFT e RL e introduciamo una nuova e impegnativa suite di benchmark progettata per valutare rigorosamente la robustezza ai cambiamenti di orientamento e il ragionamento multi-strumento. Esperimenti sulle serie Qwen2.5-VL e Qwen3-VL mostrano che il nostro approccio migliora significativamente le prestazioni del modello e favorisce capacità emergenti come la composizione flessibile degli strumenti, l'esecuzione concatenata efficiente e il robusto recupero degli errori dal feedback in tempo di esecuzione. Il codice è disponibile all'indirizzo https://github.com/ByteDance-BandAI/CodeVision.

English

Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.

Pensare con la Visione della Programmazione: Verso una Prospettiva Unificata per il Pensiero con le Immagini

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

Abstract

Support