ChatPaper.aiChatPaper

TIR-Bench: Um Benchmark Abrangente para o Raciocínio com Imagens Baseado em Agentes

TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

November 3, 2025
Autores: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang
cs.AI

Resumo

A fronteira do raciocínio visual está a deslocar-se para modelos como o OpenAI o3, que podem criar e operar ferramentas de forma inteligente para transformar imagens na resolução de problemas, também conhecido como pensar-com-imagens em cadeia de pensamento. No entanto, os benchmarks existentes não conseguem captar plenamente esta capacidade avançada. Mesmo a Pesquisa Visual, o benchmark mais comum para os métodos atuais de pensar-com-imagens, testa apenas operações básicas, como localização e recorte, oferecendo pouca perceção sobre um raciocínio mais complexo, dinâmico e dependente de ferramentas. Apresentamos o TIR-Bench, um benchmark abrangente para avaliar o pensamento-agente-com-imagens em 13 tarefas diversificadas, cada uma exigindo o uso novo de ferramentas para processamento e manipulação de imagens em cadeia de pensamento. Avaliámos 22 modelos de linguagem grandes multimodais (MLLMs), desde os principais modelos de código aberto e proprietários até àqueles com aumento explícito de uso de ferramentas. Os resultados mostram que o TIR-Bench é universalmente desafiador, e um bom desempenho exige capacidades genuínas de pensar-com-imagens. Por fim, apresentamos um estudo piloto que compara o ajuste fino direto versus o ajuste fino agente.
English
The frontier of visual reasoning is shifting toward models like OpenAI o3, which can intelligently create and operate tools to transform images for problem-solving, also known as thinking-with-images in chain-of-thought. Yet existing benchmarks fail to fully capture this advanced capability. Even Visual Search, the most common benchmark for current thinking-with-images methods, tests only basic operations such as localization and cropping, offering little insight into more complex, dynamic, and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive benchmark for evaluating agentic thinking-with-images across 13 diverse tasks, each requiring novel tool use for image processing and manipulation in chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from leading open-sourced and proprietary models to those with explicit tool-use augmentation. Results show that TIR-Bench is universally challenging, and strong performance requires genuine thinking-with-images capabilities. Finally, we present a pilot study comparing direct versus agentic fine-tuning.
PDF151January 19, 2026