Penser avec une vision programmatique : vers une perspectives unifiée pour la pensée par les images
Thinking with Programming Vision: Towards a Unified View for Thinking with Images
December 3, 2025
papers.authors: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin
cs.AI
papers.abstract
Les modèles de langage multimodaux (MLLM) qui raisonnent avec des images peuvent utiliser des outils de manière interactive pour traiter des entrées visuelles, mais les approches actuelles reposent souvent sur un ensemble restreint d'outils présentant une utilité pratique et une évolutivité limitées. Dans ce travail, nous révélons d'abord une faiblesse critique et jusqu'alors négligée : même les MLLM les plus avancés sont étonnamment fragiles, affichant une dégradation significative des performances sur des images subissant de simples changements d'orientation ou des corruptions naturelles, ce qui souligne la nécessité d'un raisonnement basé sur les outils plus robuste. Pour y remédier, nous proposons CodeVision, un cadre flexible et évolutif où le code sert d'outil universel : le modèle génère du code comme interface pour invoquer n'importe quelle opération image, dépassant ainsi les registres d'outils fixes. Nous entraînons notre modèle selon une méthodologie en deux étapes, commençant par un Fine-Tuning Supervisé (SFT) sur un jeu de données de haute qualité conçu pour la composition d'outils multi-tours complexes et la récupération d'erreurs, suivi d'un Apprentissage par Renforcement (RL) avec une nouvelle fonction de récompense de processus dense pour encourager une utilisation stratégique et efficace des outils. Pour faciliter cette recherche, nous construisons de nouveaux jeux de données pour le SFT et le RL et introduisons une nouvelle suite de benchmarks exigeants conçue pour évaluer rigoureusement la robustesse aux changements d'orientation et le raisonnement multi-outils. Les expériences sur les séries Qwen2.5-VL et Qwen3-VL montrent que notre approche améliore significativement les performances du modèle et favorise l'émergence de capacités telles que la composition flexible d'outils, l'exécution enchaînée efficace et la récupération robuste des erreurs via les retours d'exécution. Le code est disponible à l'adresse https://github.com/ByteDance-BandAI/CodeVision.
English
Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.