TIR-Bench: Un Punto de Referencia Integral para el Razonamiento Agentivo con Imágenes

Resumen

La frontera del razonamiento visual está desplazándose hacia modelos como OpenAI o3, que pueden crear y operar herramientas de forma inteligente para transformar imágenes con fines de resolución de problemas, lo que también se conoce como "pensar-con-imágenes" en cadena de pensamiento. Sin embargo, los puntos de referencia existentes no logran capturar plenamente esta capacidad avanzada. Incluso la Búsqueda Visual, el criterio más común para los métodos actuales de pensar-con-imágenes, evalúa únicamente operaciones básicas como la localización y el recorte, ofreciendo poca información sobre razonamientos más complejos, dinámicos y dependientes de herramientas. Presentamos TIR-Bench, un punto de referencia integral para evaluar el pensamiento agencial con imágenes a través de 13 tareas diversas, cada una de las cuales requiere el uso novedoso de herramientas para el procesamiento y manipulación de imágenes en una cadena de pensamiento. Evaluamos 22 modelos de lenguaje grandes multimodales (MLLMs), desde los principales modelos de código abierto y propietarios hasta aquellos con aumentos explícitos para el uso de herramientas. Los resultados muestran que TIR-Bench es universalmente desafiante, y que un rendimiento sólido requiere capacidades genuinas de pensar-con-imágenes. Finalmente, presentamos un estudio piloto que compara el ajuste fino directo frente al agencial.

English

The frontier of visual reasoning is shifting toward models like OpenAI o3, which can intelligently create and operate tools to transform images for problem-solving, also known as thinking-with-images in chain-of-thought. Yet existing benchmarks fail to fully capture this advanced capability. Even Visual Search, the most common benchmark for current thinking-with-images methods, tests only basic operations such as localization and cropping, offering little insight into more complex, dynamic, and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive benchmark for evaluating agentic thinking-with-images across 13 diverse tasks, each requiring novel tool use for image processing and manipulation in chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from leading open-sourced and proprietary models to those with explicit tool-use augmentation. Results show that TIR-Bench is universally challenging, and strong performance requires genuine thinking-with-images capabilities. Finally, we present a pilot study comparing direct versus agentic fine-tuning.

TIR-Bench: Un Punto de Referencia Integral para el Razonamiento Agentivo con Imágenes

TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

Resumen

Support