InSight-o3: Potenciando los Modelos Fundacionales Multimodales con Búsqueda Visual Generalizada
InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
December 21, 2025
Autores: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI
Resumen
La capacidad de los agentes de IA para "pensar con imágenes" requiere una sofisticada combinación de razonamiento y percepción. Sin embargo, los agentes multimodales abiertos actuales aún adolecen en gran medida del aspecto de razonamiento, crucial para tareas del mundo real como analizar documentos con gráficos/diagramas densos y navegar por mapas. Para abordar esta brecha, presentamos O3-Bench, un nuevo punto de referencia diseñado para evaluar el razonamiento multimodal con atención intercalada a los detalles visuales. O3-Bench presenta problemas desafiantes que requieren que los agentes integren información visual sutil de distintas áreas de la imagen mediante un razonamiento de múltiples pasos. Los problemas son altamente desafiantes incluso para sistemas de vanguardia como OpenAI o3, que solo obtiene un 40.8% de precisión en O3-Bench. Para avanzar, proponemos InSight-o3, un marco multiagente que consiste en un agente de razonamiento visual (vReasoner) y un agente de búsqueda visual (vSearcher), para el cual presentamos la tarea de búsqueda visual generalizada: localizar regiones relacionales, difusas o conceptuales descritas en lenguaje libre, más allá de simples objetos o figuras en imágenes naturales. Luego presentamos un modelo de lenguaje multimodal (LLM) entrenado específicamente para esta tarea mediante aprendizaje por refuerzo. Como agente plug-and-play, nuestro vSearcher potencia a los modelos multimodales de vanguardia (como vReasoners), mejorando significativamente su rendimiento en una amplia gama de benchmarks. Esto marca un paso concreto hacia sistemas abiertos potentes similares a o3. Nuestro código y conjunto de datos se pueden encontrar en https://github.com/m-Just/InSight-o3.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .