ChatPaper.aiChatPaper

Denken met een programmeerperspectief: op weg naar een verenigde visie voor denken met beelden

Thinking with Programming Vision: Towards a Unified View for Thinking with Images

December 3, 2025
Auteurs: Zirun Guo, Minjie Hong, Feng Zhang, Kai Jia, Tao Jin
cs.AI

Samenvatting

Multimodale grote taalmodellen (MLLM's) die met beelden denken, kunnen interactief tools gebruiken om visuele invoer te interpreteren. Huidige methoden vertrouwen echter vaak op een beperkte set tools met weinig praktische noodzaak en schaalbaarheid. In dit werk onthullen we eerst een cruciaal en voorheen over het hoofd gezien zwak punt: zelfs de modernste MLLM's zijn verrassend broos en vertonen aanzienlijke prestatievermindering bij beelden met eenvoudige oriëntatiewijzigingen of natuurlijke corruptie, wat de behoefte aan robuustere, op tools gebaseerde redenering onderstreept. Om dit aan te pakken, stellen we CodeVision voor, een flexibel en schaalbaar code-als-tool raamwerk waarbij het model code genereert als universele interface om elke beeldbewerking aan te roepen, voorbij vaste toolregistraties. We trainen ons model met een tweefasenmethodologie, beginnend met Supervised Fine-Tuning (SFT) op een hoogwaardige dataset, samengesteld voor complexe, multi-turn toolcompositie en foutherstel, gevolgd door Reinforcement Learning (RL) met een nieuwe en gedetailleerde procesbeloningsfunctie om strategisch en efficiënt toolgebruik aan te moedigen. Om dit onderzoek te faciliteren, construeren we nieuwe SFT- en RL-datasets en introduceren we een uitdagende nieuwe benchmark suite, ontworpen om robuustheid tegen oriëntatiewijzigingen en multi-tool redenering rigoureus te evalueren. Experimenten op de Qwen2.5-VL en Qwen3-VL series tonen aan dat onze aanpak modelprestaties significant verbetert en opkomende capaciteiten bevordert, zoals flexibele toolcompositie, efficiënte geketende uitvoering en robuust foutherstel op basis van runtime-feedback. Code is beschikbaar op https://github.com/ByteDance-BandAI/CodeVision.
English
Multimodal large language models (MLLMs) that think with images can interactively use tools to reason about visual inputs, but current approaches often rely on a narrow set of tools with limited real-world necessity and scalability. In this work, we first reveal a critical and previously overlooked weakness: even state-of-the-art MLLMs are surprisingly brittle, showing significant performance degradation on images with simple orientation changes or natural corruptions, underscoring the need for more robust tool-based reasoning. To address this, we propose CodeVision, a flexible and scalable code-as-tool framework where the model generates code as a universal interface to invoke any image operation, moving beyond fixed tool registries. We train our model using a two-stage methodology, beginning with Supervised Fine-Tuning (SFT) on a high-quality dataset curated for complex, multi-turn tool composition and error recovery, followed by Reinforcement Learning (RL) with a novel and dense process reward function to encourage strategic and efficient tool use. To facilitate this research, we construct new SFT and RL datasets and introduce a challenging new benchmark suite designed to rigorously evaluate robustness to orientation changes and multi-tool reasoning. Experiments on Qwen2.5-VL and Qwen3-VL series show that our approach significantly improves model performance and fosters emergent capabilities such as flexible tool composition, efficient chained execution, and robust error recovery from runtime feedback. Code is available at https://github.com/ByteDance-BandAI/CodeVision.
PDF100December 5, 2025