ChatPaper.aiChatPaper

InSight-o3: Расширение возможностей мультимодальных базовых моделей за счет обобщенного визуального поиска

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

December 21, 2025
Авторы: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI

Аннотация

Способность ИИ-агентов «мыслить образами» требует сложного сочетания рассуждений и восприятия. Однако современные открытые мультимодальные агенты по-прежнему в значительной степени отстают в аспекте рассуждений, критически важном для реальных задач, таких как анализ документов с насыщенными графиками/диаграммами и навигация по картам. Чтобы устранить этот пробел, мы представляем O3-Bench — новый эталонный набор, предназначенный для оценки мультимодальных рассуждений с чередующимся вниманием к визуальным деталям. O3-Bench включает сложные задачи, которые требуют от агентов сборки тонкой визуальной информации из различных областей изображения посредством многошаговых рассуждений. Эти задачи представляют высокую сложность даже для передовых систем, таких как OpenAI o3, которая достигает точности всего 40,8% на O3-Bench. Для прогресса в этой области мы предлагаем InSight-o3, мультиагентную структуру, состоящую из агента визуальных рассуждений (vReasoner) и агента визуального поиска (vSearcher), для которого мы вводим задачу обобщенного визуального поиска — локализации реляционных, нечетких или концептуальных областей, описанных на свободном языке, выходящего за рамки простых объектов или фигур на естественных изображениях. Далее мы представляем мультимодальную большую языковую модель, целенаправленно обученную для этой задачи с помощью обучения с подкреплением. Как plug-and-play агент, наш vSearcher усиливает передовые мультимодальные модели (в роли vReasoner), значительно улучшая их производительность на широком спектре тестов. Это представляет собой конкретный шаг к созданию мощных открытых систем, подобных o3. Наш код и набор данных доступны по адресу https://github.com/m-Just/InSight-o3.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .
PDF61December 30, 2025