InSight-o3: Potenziamento dei Modelli Fondazionali Multimodali con la Ricerca Visiva Generalizzata
InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search
December 21, 2025
Autori: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI
Abstract
La capacità degli agenti di IA di "pensare con le immagini" richiede una sofisticata combinazione di ragionamento e percezione. Tuttavia, gli attuali agenti multimodali open si rivelano ancora largamente carenti nell'aspetto del ragionamento, cruciale per compiti del mondo reale come l'analisi di documenti con grafici/diagrammi densi e la navigazione di mappe. Per colmare questa lacuna, introduciamo O3-Bench, un nuovo benchmark progettato per valutare il ragionamento multimodale con attenzione alternata ai dettagli visivi. O3-Bench presenta problemi complessi che richiedono agli agenti di integrare informazioni visive sottili da distinte aree dell'immagine attraverso un ragionamento a più fasi. I problemi sono estremamente impegnativi anche per sistemi all'avanguardia come OpenAI o3, che ottiene solo il 40,8% di accuratezza su O3-Bench. Per fare progressi, proponiamo InSight-o3, un framework multi-agente composto da un agente di ragionamento visivo (vReasoner) e un agente di ricerca visiva (vSearcher) per il quale introduciamo il compito di ricerca visiva generalizzata – individuare regioni relazionali, sfumate o concettuali descritte in linguaggio libero, andando oltre la semplice identificazione di oggetti o figure in immagini naturali. Presentiamo quindi un LLM multimodale addestrato specificamente per questo compito tramite apprendimento per rinforzo. Come agente plug-and-play, il nostro vSearcher potenzia i modelli multimodali all'avanguardia (come vReasoner), migliorando significativamente le loro prestazioni su un'ampia gamma di benchmark. Questo rappresenta un passo concreto verso potenti sistemi open simili a o3. Il nostro codice e dataset sono disponibili su https://github.com/m-Just/InSight-o3.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .