ChatPaper.aiChatPaper

InSight-o3:一般化された視覚検索によるマルチモーダル基盤モデルの強化

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

December 21, 2025
著者: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI

要旨

AIエージェントが「画像を用いて思考する」能力には、推論と知覚の高度な融合が求められます。しかし、現在のオープンなマルチモーダルエージェントは、詳細な図表を含む文書の分析や地図のナビゲーションといった実世界のタスクに不可欠な推論能力において、依然として大きく不足しています。この課題を解決するため、我々は視覚的詳細への交互の注意を伴うマルチモーダル推論を評価する新しいベンチマーク「O3-Bench」を提案します。O3-Benchは、エージェントが複数ステップの推論を通じて画像内の異なる領域から微妙な視覚情報を統合することを要求する難易度の高い問題を特徴としています。これらの問題は、OpenAI o3のような最先端システムにとっても極めて難しく、O3-Benchでの正解率は40.8%に留まっています。 この状況を改善するため、我々は視覚推論エージェント(vReasoner)と視覚検索エージェント(vSearcher)から成るマルチエージェントフレームワーク「InSight-o3」を提案します。vSearcherに対して我々が導入するのは、一般化された視覚検索タスクです。これは、自然画像中の単純な物体や図形だけでなく、自由形式の言語で記述された関係的、曖昧、または概念的な領域を特定するタスクです。さらに、強化学習を用いてこのタスク向けに特別に訓練されたマルチモーダルLLMを提示します。プラグアンドプレイ型のエージェントとして、我々のvSearcherは最先端のマルチモーダルモデル(vReasonerとして)を強化し、様々なベンチマークにおけるそれらの性能を大幅に向上させます。これは、強力なo3に類似したオープンシステムに向けた具体的な一歩を示すものです。コードとデータセットはhttps://github.com/m-Just/InSight-o3 で公開されています。
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .
PDF61December 30, 2025