InSight-o3: Capacitando Modelos de Fundação Multimodais com Busca Visual Generalizada

Resumo

A capacidade dos agentes de IA de "pensar com imagens" requer uma combinação sofisticada de raciocínio e perceção. No entanto, os atuais agentes multimodais abertos continuam amplamente deficientes no aspeto de raciocínio, crucial para tarefas do mundo real, como analisar documentos com gráficos/diagramas densos e navegar em mapas. Para colmatar esta lacuna, apresentamos o O3-Bench, um novo benchmark concebido para avaliar o raciocínio multimodal com atenção intercalada a detalhes visuais. O O3-Bench apresenta problemas desafiadores que exigem que os agentes reunam informações visuais subtis de áreas distintas da imagem através de um raciocínio de múltiplos passos. Os problemas são altamente desafiadores, mesmo para sistemas de ponta como o OpenAI o3, que obtém apenas 40,8% de precisão no O3-Bench. Para progredir, propomos o InSight-o3, uma arquitetura multiagente composta por um agente de raciocínio visual (vReasoner) e um agente de pesquisa visual (vSearcher), para o qual introduzimos a tarefa de pesquisa visual generalizada — localizar regiões relacionais, difusas ou conceptuais descritas em linguagem livre, para além de simples objetos ou figuras em imagens naturais. Em seguida, apresentamos um Modelo de Linguagem Multimodal treinado especificamente para esta tarefa através de aprendizagem por reforço. Como um agente *plug-and-play*, o nosso vSearcher capacita modelos multimodais de ponta (como vReasoners), melhorando significativamente o seu desempenho numa ampla gama de benchmarks. Isto representa um passo concreto rumo a poderosos sistemas abertos semelhantes ao o3. O nosso código e conjunto de dados podem ser encontrados em https://github.com/m-Just/InSight-o3.

English

The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .

InSight-o3: Capacitando Modelos de Fundação Multimodais com Busca Visual Generalizada

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

Resumo

Support