TIR-Bench: Комплексный эталонный тест для агентного мышления-с-изображениями
TIR-Bench: A Comprehensive Benchmark for Agentic Thinking-with-Images Reasoning
November 3, 2025
Авторы: Ming Li, Jike Zhong, Shitian Zhao, Haoquan Zhang, Shaoheng Lin, Yuxiang Lai, Wei Chen, Konstantinos Psounis, Kaipeng Zhang
cs.AI
Аннотация
Фронт исследований в области визуального мышления смещается в сторону таких моделей, как OpenAI o3, которые способны интеллектуально создавать и использовать инструменты для преобразования изображений в целях решения задач — подход, известный как «рассуждение с изображениями» (thinking-with-images) в рамках «цепочки рассуждений» (chain-of-thought). Однако существующие бенчмарки не в полной мере отражают эту продвинутую способность. Даже «Визуальный поиск» (Visual Search) — наиболее распространенный бенчмарк для современных методов рассуждения с изображениями — тестирует лишь базовые операции, такие как локализация и обрезка, практически не затрагивая более сложные, динамичные и зависящие от инструментов формы reasoning. Мы представляем TIR-Bench — комплексный бенчмарк для оценки агентского рассуждения с изображениями, включающий 13 разнообразных задач, каждая из которых требует нового использования инструментов для обработки и манипуляции изображениями в рамках цепочки рассуждений. Мы оценили 22 мультимодальные большие языковые модели (MLLM), от ведущих открытых и проприетарных моделей до моделей с явной доработкой для использования инструментов. Результаты показывают, что TIR-Bench является универсально сложным, и для высоких результатов требуются подлинные способности к рассуждению с изображениями. Наконец, мы представляем пилотное исследование, сравнивающее прямое и агентское тонкое настраивание (fine-tuning).
English
The frontier of visual reasoning is shifting toward models like OpenAI o3,
which can intelligently create and operate tools to transform images for
problem-solving, also known as thinking-with-images in
chain-of-thought. Yet existing benchmarks fail to fully capture this advanced
capability. Even Visual Search, the most common benchmark for current
thinking-with-images methods, tests only basic operations such as
localization and cropping, offering little insight into more complex, dynamic,
and tool-dependent reasoning. We introduce TIR-Bench, a comprehensive
benchmark for evaluating agentic thinking-with-images across 13 diverse tasks,
each requiring novel tool use for image processing and manipulation in
chain-of-thought. We evaluate 22 multimodal large language models (MLLMs), from
leading open-sourced and proprietary models to those with explicit tool-use
augmentation. Results show that TIR-Bench is universally challenging, and
strong performance requires genuine thinking-with-images capabilities. Finally,
we present a pilot study comparing direct versus agentic fine-tuning.