ChatPaper.aiChatPaper

PyVision: Agentische Bildverarbeitung mit dynamischen Werkzeugen

PyVision: Agentic Vision with Dynamic Tooling

July 10, 2025
papers.authors: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei
cs.AI

papers.abstract

LLMs werden zunehmend als Agenten eingesetzt, also als Systeme, die in der Lage sind, zu planen, zu schlussfolgern und externe Werkzeuge dynamisch aufzurufen. Im Bereich des visuellen Denkens bleiben bisherige Ansätze jedoch weitgehend auf vordefinierte Workflows und statische Werkzeugsätze beschränkt. In diesem Bericht stellen wir PyVision vor, ein interaktives, mehrstufiges Framework, das MLLMs ermöglicht, autonom Python-basierte Werkzeuge zu generieren, auszuführen und zu verfeinern, die auf die jeweilige Aufgabe zugeschnitten sind, und so flexibles und interpretierbares Problemlösen ermöglicht. Wir entwickeln eine Taxonomie der von PyVision erstellten Werkzeuge und analysieren deren Verwendung über eine Vielzahl von Benchmarks hinweg. Quantitativ erzielt PyVision konsistente Leistungssteigerungen und verbessert GPT-4.1 um +7,8 % auf V* und Claude-4.0-Sonnet um +31,1 % auf VLMsAreBlind-mini. Diese Ergebnisse deuten auf einen umfassenderen Wandel hin: Dynamische Werkzeugentwicklung ermöglicht es Modellen nicht nur, Werkzeuge zu verwenden, sondern sie auch zu erfinden, was einen Fortschritt hin zu einem agentenhafteren visuellen Denken darstellt.
English
LLMs are increasingly deployed as agents, systems capable of planning, reasoning, and dynamically calling external tools. However, in visual reasoning, prior approaches largely remain limited by predefined workflows and static toolsets. In this report, we present PyVision, an interactive, multi-turn framework that enables MLLMs to autonomously generate, execute, and refine Python-based tools tailored to the task at hand, unlocking flexible and interpretable problem-solving. We develop a taxonomy of the tools created by PyVision and analyze their usage across a diverse set of benchmarks. Quantitatively, PyVision achieves consistent performance gains, boosting GPT-4.1 by +7.8% on V* and Claude-4.0-Sonnet by +31.1% on VLMsAreBlind-mini. These results point to a broader shift: dynamic tooling allows models not just to use tools, but to invent them, advancing toward more agentic visual reasoning.
PDF221July 11, 2025