ChatPaper.aiChatPaper

PyVision: Visão Agente com Ferramentas Dinâmicas

PyVision: Agentic Vision with Dynamic Tooling

July 10, 2025
Autores: Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Ming Li, Qilong Wu, Kaipeng Zhang, Chen Wei
cs.AI

Resumo

Os LLMs estão sendo cada vez mais implantados como agentes, sistemas capazes de planejar, raciocinar e chamar dinamicamente ferramentas externas. No entanto, no raciocínio visual, as abordagens anteriores permanecem amplamente limitadas por fluxos de trabalho predefinidos e conjuntos de ferramentas estáticos. Neste relatório, apresentamos o PyVision, uma estrutura interativa e multi-turn que permite que os MLLMs gerem, executem e refinem de forma autônoma ferramentas baseadas em Python, adaptadas à tarefa em questão, desbloqueando uma resolução de problemas flexível e interpretável. Desenvolvemos uma taxonomia das ferramentas criadas pelo PyVision e analisamos seu uso em um conjunto diversificado de benchmarks. Quantitativamente, o PyVision alcança ganhos consistentes de desempenho, aumentando o GPT-4.1 em +7,8% no V* e o Claude-4.0-Sonnet em +31,1% no VLMsAreBlind-mini. Esses resultados apontam para uma mudança mais ampla: a ferramentaria dinâmica permite que os modelos não apenas usem ferramentas, mas as inventem, avançando em direção a um raciocínio visual mais agentivo.
English
LLMs are increasingly deployed as agents, systems capable of planning, reasoning, and dynamically calling external tools. However, in visual reasoning, prior approaches largely remain limited by predefined workflows and static toolsets. In this report, we present PyVision, an interactive, multi-turn framework that enables MLLMs to autonomously generate, execute, and refine Python-based tools tailored to the task at hand, unlocking flexible and interpretable problem-solving. We develop a taxonomy of the tools created by PyVision and analyze their usage across a diverse set of benchmarks. Quantitatively, PyVision achieves consistent performance gains, boosting GPT-4.1 by +7.8% on V* and Claude-4.0-Sonnet by +31.1% on VLMsAreBlind-mini. These results point to a broader shift: dynamic tooling allows models not just to use tools, but to invent them, advancing toward more agentic visual reasoning.
PDF292July 11, 2025