ChatPaper.aiChatPaper

InSight-o3: Het versterken van multimodale foundation-modellen met gegeneraliseerde visuele zoekfuncties

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

December 21, 2025
Auteurs: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI

Samenvatting

Het vermogen van AI-agenten om "met beelden te denken" vereist een geavanceerde combinatie van redeneren en waarneming. Huidige open multimodale agenten schieten echter grotendeels nog tekort op het cruciale redeneeraspect voor real-world taken, zoals het analyseren van documenten met uitgebreide grafieken/diagrammen en het navigeren met kaarten. Om deze kloof te dichten, introduceren we O3-Bench, een nieuwe benchmark ontworpen om multimodaal redeneren met afgewisselde aandacht voor visuele details te evalueren. O3-Bench bevat uitdagende problemen die vereisen dat agenten subtiele visuele informatie uit verschillende beeldgebieden via meerstapsredenering samenvoegen. De problemen zijn zelfs voor geavanceerde systemen zoals OpenAI o3 zeer uitdagend, wat slechts een nauwkeurigheid van 40,8% behaalt op O3-Bench. Om vooruitgang te boeken, stellen we InSight-o3 voor, een multi-agent framework bestaande uit een visuele redeneeragent (vReasoner) en een visuele zoekagent (vSearcher). Voor de vSearcher introduceren we de taak van gegeneraliseerd visueel zoeken – het lokaliseren van relationele, vage of conceptuele regio's beschreven in vrije-taal, verder dan alleen eenvoudige objecten of figuren in natuurlijke beelden. Vervolgens presenteren we een multimodale LLM die specifiek voor deze taak is getraind via reinforcement learning. Als plug-and-play agent empowerd onze vSearcher geavanceerde multimodale modellen (als vReasoners), wat hun prestaties op een breed scala aan benchmarks aanzienlijk verbetert. Dit markeert een concrete stap richting krachtige o3-achtige opensystemen. Onze code en dataset zijn beschikbaar op https://github.com/m-Just/InSight-o3.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .
PDF61December 30, 2025