InSight-o3 : Renforcer les modèles de fondation multimodaux par la recherche visuelle généralisée
InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
December 21, 2025
papers.authors: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI
papers.abstract
La capacité des agents d'IA à « penser avec des images » nécessite une combinaison sophistiquée de raisonnement et de perception. Cependant, les agents multimodaux ouverts actuels présentent encore largement des lacunes dans l'aspect raisonnement, pourtant crucial pour des tâches réelles comme l'analyse de documents contenant des graphiques/diagrammes denses ou la navigation cartographique. Pour combler cette lacune, nous présentons O3-Bench, un nouveau benchmark conçu pour évaluer le raisonnement multimodal avec une attention entrelacée aux détails visuels. O3-Bench propose des problèmes complexes qui exigent des agents qu'ils assemblent des informations visuelles subtiles provenant de zones d'image distinctes via un raisonnement en plusieurs étapes. Ces problèmes sont très difficiles, même pour les systèmes de pointe comme OpenAI o3, qui n'obtient qu'une précision de 40,8 % sur O3-Bench. Pour progresser, nous proposons InSight-o3, un cadre multi-agents composé d'un agent de raisonnement visuel (vReasoner) et d'un agent de recherche visuelle (vSearcher), pour lequel nous introduisons la tâche de recherche visuelle généralisée – localiser des zones relationnelles, floues ou conceptuelles décrites en langage naturel, au-delà de la simple détection d'objets ou de figures dans les images naturelles. Nous présentons ensuite un LLM multimodal spécialement entraîné pour cette tâche via l'apprentissage par renforcement. En tant qu'agent plug-and-play, notre vSearcher renforce les modèles multimodaux de pointe (en tant que vReasoners), améliorant significativement leurs performances sur un large éventail de benchmarks. Cela constitue une étape concrète vers de puissants systèmes ouverts de type o3. Notre code et notre jeu de données sont disponibles à l'adresse https://github.com/m-Just/InSight-o3.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .