TIR-Bench: 画像思考を伴うエージェント的推論のための包括的ベンチマーク
TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
November 3, 2025
著者: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang
cs.AI
要旨
視覚推論のフロンティアは、問題解決のために画像を変換するツールを知的に作成・操作する能力(思考連鎖における画像思考とも呼ばれる)を備えたOpenAI o1のようなモデルへと移行しつつある。しかし、既存のベンチマークはこの高度な能力を十分に捉えられていない。現在の画像思考手法で最も一般的なベンチマークであるVisual Searchでさえ、位置特定や切り抜きなどの基本操作のみをテストし、より複雑で動的、かつツールに依存する推論に関する洞察をほとんど提供しない。我々はTIR-Benchを提案する。これは13の多様なタスクにわたるエージェンシー的な画像思考を評価する包括的なベンチマークであり、各タスクは思考連鎖における画像処理と操作のための新しいツール使用を必要とする。主要なオープンソースモデルやプロプライエタリモデルから、明示的なツール使用拡張を備えたモデルまで、22の大規模マルチモーダル言語モデル(MLLM)を評価した。結果は、TIR-Benchが普遍的で難易度が高く、強力な性能には真の画像思考能力が必要であることを示している。最後に、直接的なファインチューニングとエージェンシー的なファインチューニングを比較する予備調査を提示する。
English
The frontier of visual reasoning is shifting toward models like OpenAI o3,
which can intelligently create and operate tools to transform images for
problem-solving, also known as thinking-with-images in
chain-of-thought. Yet existing benchmarks fail to fully capture this advanced
capability. Even Visual Search, the most common benchmark for current
thinking-with-images methods, tests only basic operations such as
localization and cropping, offering little insight into more complex, dynamic,
and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive
benchmark for evaluating agentic thinking-with-images across 13 diverse tasks,
each requiring novel tool use for image processing and manipulation in
chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from
leading open-sourced and proprietary models to those with explicit tool-use
augmentation. Results show that TIR-Bench is universally challenging, and
strong performance requires genuine thinking-with-images capabilities. Finally,
we present a pilot study comparing direct versus agentic fine-tuning.