PyVision: Visão Agente com Ferramentas Dinâmicas
PyVision: Agentic Vision with Dynamic Tooling
July 10, 2025
Autores: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei
cs.AI
Resumo
Os LLMs estão sendo cada vez mais implantados como agentes, sistemas capazes de planejar, raciocinar e chamar dinamicamente ferramentas externas. No entanto, no raciocínio visual, as abordagens anteriores permanecem amplamente limitadas por fluxos de trabalho predefinidos e conjuntos de ferramentas estáticos. Neste relatório, apresentamos o PyVision, uma estrutura interativa e multi-turn que permite que os MLLMs gerem, executem e refinem de forma autônoma ferramentas baseadas em Python, adaptadas à tarefa em questão, desbloqueando uma resolução de problemas flexível e interpretável. Desenvolvemos uma taxonomia das ferramentas criadas pelo PyVision e analisamos seu uso em um conjunto diversificado de benchmarks. Quantitativamente, o PyVision alcança ganhos consistentes de desempenho, aumentando o GPT-4.1 em +7,8% no V* e o Claude-4.0-Sonnet em +31,1% no VLMsAreBlind-mini. Esses resultados apontam para uma mudança mais ampla: a ferramentaria dinâmica permite que os modelos não apenas usem ferramentas, mas as inventem, avançando em direção a um raciocínio visual mais agentivo.
English
LLMs are increasingly deployed as agents, systems capable of planning,
reasoning, and dynamically calling external tools. However, in visual
reasoning, prior approaches largely remain limited by predefined workflows and
static toolsets. In this report, we present PyVision, an interactive,
multi-turn framework that enables MLLMs to autonomously generate, execute, and
refine Python-based tools tailored to the task at hand, unlocking flexible and
interpretable problem-solving. We develop a taxonomy of the tools created by
PyVision and analyze their usage across a diverse set of benchmarks.
Quantitatively, PyVision achieves consistent performance gains, boosting
GPT-4.1 by +7.8% on V* and Claude-4.0-Sonnet by +31.1% on VLMsAreBlind-mini.
These results point to a broader shift: dynamic tooling allows models not just
to use tools, but to invent them, advancing toward more agentic visual
reasoning.