InSight-o3: 일반화된 시각 검색으로 강화하는 멀티모달 파운데이션 모델
InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
December 21, 2025
저자: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI
초록
AI 에이전트가 "이미지로 사고"하는 능력은 추론과 인지의 정교한 결합을 필요로 합니다. 그러나 현재 공개된 멀티모달 에이전트들은 여전히 문서 내 복잡한 차트/다이어그램 분석이나 지도 탐색과 같은 실세계 작업에 중요한 추론 측면에서 크게 부족한 실정입니다. 이러한 격차를 해결하기 위해 우리는 시각적 세부 사항에 대한 교차 주의를 통한 멀티모달 추론을 평가하도록 설계된 새로운 벤치마크인 O3-Bench를 소개합니다. O3-Bench는 다단계 추론을 통해 서로 다른 이미지 영역의 미세한 시각 정보를 종합해야 하는 난해한 문제들을 특징으로 합니다. 이 문제들은 OpenAI o3와 같은 최첨단 시스템에게도 매우 도전적이며, O3-Bench에서 단 40.8%의 정확도만을 보입니다.
진전을 이루기 위해 우리는 InSight-o3라는 다중 에이전트 프레임워크를 제안합니다. 이는 시각 추론 에이전트(vReasoner)와 시각 검색 에이전트(vSearcher)로 구성되며, 후자를 위해 일반화된 시각 검색이라는 과제를 도입했습니다. 이는 자연 이미지의 단순한 객체나 도형을 넘어 자유 형식 언어로描述된 관계적, 모호하거나 개념적인 영역을 찾는 작업입니다. 그런 다음 강화 학습을 통해 이 작업에 특화되도록 목적 훈련된 멀티모달 LLM을 제시합니다. 플러그 앤 플레이 에이전트로서 우리의 vSearcher는 최첨단 멀티모델 모델(vReasoner 역할)의 성능을 강화하여 다양한 벤치마크에서 그 성능을 크게 향상시킵니다. 이는 강력한 o3 유사 오픈 시스템을 구축하는 데 있어 구체적인 진전을 의미합니다. 우리의 코드와 데이터 세트는 https://github.com/m-Just/InSight-o3에서 확인할 수 있습니다.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .