TIR-Bench: 이미지 사고 기반 에이전트 추론을 위한 종합 벤치마크
TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
November 3, 2025
저자: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang
cs.AI
초록
시각적 추론의 최전선은 OpenAI o3와 같은 모델로 이동하고 있으며, 이러한 모델은 문제 해결을 위해 이미지를 변환하는 도구를 지능적으로 생성하고 조작할 수 있습니다. 이는 사고 연쇄 과정에서의 '이미지 활용 사고'라고도 알려져 있습니다. 그러나 기존 벤치마크는 이러한 고급 능력을 완전히 포착하지 못하고 있습니다. 현재 이미지 활용 사고 방법론을 평가하는 가장 일반적인 벤치마크인 Visual Search 조차도 위치 특정 및 크롭과 같은 기본적인 연산만 테스트할 뿐, 더 복잡하고 동적이며 도구에 의존적인 추론 능력에 대한 통찰을 거의 제공하지 않습니다. 본 연구에서는 13가지 다양한 작업에 걸쳐 에이전트형 이미지 활용 사고를 평가하는 포괄적인 벤치마크인 TIR-Bench를 소개합니다. 각 작업은 사고 연쇄 과정에서 이미지 처리 및 조작을 위한 새로운 도구 사용을 요구합니다. 우리는 선도적인 오픈소스 및 독점 모델부터 명시적 도구 사용 강화 모델에 이르기까지 22개의 다중模态 대규모 언어 모델(MLLM)을 평가했습니다. 결과에 따르면 TIR-Bench는 보편적으로 어려운 벤치마크이며, 높은 성능을 달성하려면 진정한 이미지 활용 사고 능력이 필요함을 보여줍니다. 마지막으로, 직접 미세 조정과 에이전트형 미세 조정을 비교한 예비 연구를 제시합니다.
English
The frontier of visual reasoning is shifting toward models like OpenAI o3,
which can intelligently create and operate tools to transform images for
problem-solving, also known as thinking-with-images in
chain-of-thought. Yet existing benchmarks fail to fully capture this advanced
capability. Even Visual Search, the most common benchmark for current
thinking-with-images methods, tests only basic operations such as
localization and cropping, offering little insight into more complex, dynamic,
and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive
benchmark for evaluating agentic thinking-with-images across 13 diverse tasks,
each requiring novel tool use for image processing and manipulation in
chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from
leading open-sourced and proprietary models to those with explicit tool-use
augmentation. Results show that TIR-Bench is universally challenging, and
strong performance requires genuine thinking-with-images capabilities. Finally,
we present a pilot study comparing direct versus agentic fine-tuning.