InSight-o3: Potenziamento dei Modelli Fondazionali Multimodali con la Ricerca Visiva Generalizzata

Abstract

La capacità degli agenti di IA di "pensare con le immagini" richiede una sofisticata combinazione di ragionamento e percezione. Tuttavia, gli attuali agenti multimodali open si rivelano ancora largamente carenti nell'aspetto del ragionamento, cruciale per compiti del mondo reale come l'analisi di documenti con grafici/diagrammi densi e la navigazione di mappe. Per colmare questa lacuna, introduciamo O3-Bench, un nuovo benchmark progettato per valutare il ragionamento multimodale con attenzione alternata ai dettagli visivi. O3-Bench presenta problemi complessi che richiedono agli agenti di integrare informazioni visive sottili da distinte aree dell'immagine attraverso un ragionamento a più fasi. I problemi sono estremamente impegnativi anche per sistemi all'avanguardia come OpenAI o3, che ottiene solo il 40,8% di accuratezza su O3-Bench. Per fare progressi, proponiamo InSight-o3, un framework multi-agente composto da un agente di ragionamento visivo (vReasoner) e un agente di ricerca visiva (vSearcher) per il quale introduciamo il compito di ricerca visiva generalizzata – individuare regioni relazionali, sfumate o concettuali descritte in linguaggio libero, andando oltre la semplice identificazione di oggetti o figure in immagini naturali. Presentiamo quindi un LLM multimodale addestrato specificamente per questo compito tramite apprendimento per rinforzo. Come agente plug-and-play, il nostro vSearcher potenzia i modelli multimodali all'avanguardia (come vReasoner), migliorando significativamente le loro prestazioni su un'ampia gamma di benchmark. Questo rappresenta un passo concreto verso potenti sistemi open simili a o3. Il nostro codice e dataset sono disponibili su https://github.com/m-Just/InSight-o3.

English

The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .

InSight-o3: Potenziamento dei Modelli Fondazionali Multimodali con la Ricerca Visiva Generalizzata

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

Abstract

Support