TIR-Bench: Un Punto de Referencia Integral para el Razonamiento Agentivo con Imágenes
TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
November 3, 2025
Autores: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang
cs.AI
Resumen
La frontera del razonamiento visual está desplazándose hacia modelos como OpenAI o3, que pueden crear y operar herramientas de forma inteligente para transformar imágenes con fines de resolución de problemas, lo que también se conoce como "pensar-con-imágenes" en cadena de pensamiento. Sin embargo, los puntos de referencia existentes no logran capturar plenamente esta capacidad avanzada. Incluso la Búsqueda Visual, el criterio más común para los métodos actuales de pensar-con-imágenes, evalúa únicamente operaciones básicas como la localización y el recorte, ofreciendo poca información sobre razonamientos más complejos, dinámicos y dependientes de herramientas. Presentamos TIR-Bench, un punto de referencia integral para evaluar el pensamiento agencial con imágenes a través de 13 tareas diversas, cada una de las cuales requiere el uso novedoso de herramientas para el procesamiento y manipulación de imágenes en una cadena de pensamiento. Evaluamos 22 modelos de lenguaje grandes multimodales (MLLMs), desde los principales modelos de código abierto y propietarios hasta aquellos con aumentos explícitos para el uso de herramientas. Los resultados muestran que TIR-Bench es universalmente desafiante, y que un rendimiento sólido requiere capacidades genuinas de pensar-con-imágenes. Finalmente, presentamos un estudio piloto que compara el ajuste fino directo frente al agencial.
English
The frontier of visual reasoning is shifting toward models like OpenAI o3,
which can intelligently create and operate tools to transform images for
problem-solving, also known as thinking-with-images in
chain-of-thought. Yet existing benchmarks fail to fully capture this advanced
capability. Even Visual Search, the most common benchmark for current
thinking-with-images methods, tests only basic operations such as
localization and cropping, offering little insight into more complex, dynamic,
and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive
benchmark for evaluating agentic thinking-with-images across 13 diverse tasks,
each requiring novel tool use for image processing and manipulation in
chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from
leading open-sourced and proprietary models to those with explicit tool-use
augmentation. Results show that TIR-Bench is universally challenging, and
strong performance requires genuine thinking-with-images capabilities. Finally,
we present a pilot study comparing direct versus agentic fine-tuning.