TIR-Bench: Un Benchmark Completo per il Ragionamento Agente con Pensiero per Immagini

Abstract

La frontiera del ragionamento visivo si sta spostando verso modelli come OpenAI o3, in grado di creare e utilizzare strumenti in modo intelligente per trasformare le immagini ai fini della risoluzione di problemi, noto anche come "pensare-con-immagini" all'interno di una catena di ragionamento. Tuttavia, gli attuali benchmark non riescono a cogliere appieno questa capacità avanzata. Persino Visual Search, il benchmark più comune per i metodi di pensiero-con-immagini attuali, testa solo operazioni di base come la localizzazione e il ritaglio, offrendo poca informazione su ragionamenti più complessi, dinamici e dipendenti dall'uso di strumenti. Presentiamo TIR-Bench, un benchmark completo per valutare il pensiero-con-immagini agentico attraverso 13 task diversificati, ciascuno dei quali richiede l'uso innovativo di strumenti per l'elaborazione e la manipolazione delle immagini all'interno di una catena di ragionamento. Valutiamo 22 modelli linguistici multimodali di grandi dimensioni (MLLM), dai principali modelli open-source e proprietari a quelli dotati di esplicita aumentazione per l'uso di strumenti. I risultati mostrano che TIR-Bench è universalmente impegnativo e che prestazioni solide richiedono autentiche capacità di pensiero-con-immagini. Infine, presentiamo uno studio pilota che confronta il fine-tuning diretto con quello agentico.

English

The frontier of visual reasoning is shifting toward models like OpenAI o3, which can intelligently create and operate tools to transform images for problem-solving, also known as thinking-with-images in chain-of-thought. Yet existing benchmarks fail to fully capture this advanced capability. Even Visual Search, the most common benchmark for current thinking-with-images methods, tests only basic operations such as localization and cropping, offering little insight into more complex, dynamic, and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive benchmark for evaluating agentic thinking-with-images across 13 diverse tasks, each requiring novel tool use for image processing and manipulation in chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from leading open-sourced and proprietary models to those with explicit tool-use augmentation. Results show that TIR-Bench is universally challenging, and strong performance requires genuine thinking-with-images capabilities. Finally, we present a pilot study comparing direct versus agentic fine-tuning.

TIR-Bench: Un Benchmark Completo per il Ragionamento Agente con Pensiero per Immagini

TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning

Abstract

Support