ChatPaper.aiChatPaper

InSight-o3: Stärkung multimodaler Fundamentalmodelle durch generalisierte visuelle Suche

InSight-o3: Empowering Multimodal Foundation Models with Generalized Visual Search

December 21, 2025
papers.authors: Kaican Li, Lewei Yao, Jiannan Wu, Tiezheng Yu, Jierun Chen, Haoli Bai, Lu Hou, Lanqing Hong, Wei Zhang, Nevin L. Zhang
cs.AI

papers.abstract

Die Fähigkeit von KI-Agenten, "mit Bildern zu denken", erfordert eine anspruchsvolle Verbindung von logischem Schlussfolgern und Wahrnehmung. Allerdings bleiben aktuelle offene multimodale Agenten im Hinblick auf den für reale Aufgaben entscheidenden Aspekt des logischen Schlussfolgerns – wie etwa die Analyse von Dokumenten mit komplexen Diagrammen oder die Navigation mit Karten – weitgehend hinter den Erwartungen zurück. Um diese Lücke zu schließen, stellen wir O3-Bench vor, einen neuen Benchmark zur Bewertung multimodalen logischen Schlussfolgerns mit verschachtelter Aufmerksamkeit für visuelle Details. O3-Bench umfasst anspruchsvolle Probleme, die von Agenten verlangen, subtile visuelle Informationen aus verschiedenen Bildbereichen durch mehrstufiges logisches Schlussfolgern zusammenzufügen. Diese Probleme stellen selbst für führende Systeme wie OpenAI o3 eine große Herausforderung dar, das auf O3-Bench nur eine Genauigkeit von 40,8 % erreicht. Um Fortschritte zu erzielen, schlagen wir InSight-o3 vor, ein Multi-Agenten-Framework bestehend aus einem Agenten für visuelles logisches Schlussfolgern (vReasoner) und einem Agenten für visuelle Suche (vSearcher), für den wir die Aufgabe der generalisierten visuellen Suche einführen – das Auffinden von relationalen, unscharfen oder konzeptuellen Bereichen, die in Freitextsprache beschrieben werden, über einfache Objekte oder Figuren in natürlichen Bildern hinaus. Anschließend präsentieren wir ein multimodales Großsprachmodell, das speziell für diese Aufgabe mittels Reinforcement Learning trainiert wurde. Als Plug-and-Play-Agent erweitert unser vSearcher führende multimodale Modelle (als vReasoner) und verbessert deren Leistung in einer Vielzahl von Benchmarks erheblich. Dies stellt einen konkreten Schritt hinzu leistungsstarken, o3-ähnlichen Open-Source-Systemen dar. Unser Code und Datensatz sind unter https://github.com/m-Just/InSight-o3 verfügbar.
English
The ability for AI agents to "think with images" requires a sophisticated blend of reasoning and perception. However, current open multimodal agents still largely fall short on the reasoning aspect crucial for real-world tasks like analyzing documents with dense charts/diagrams and navigating maps. To address this gap, we introduce O3-Bench, a new benchmark designed to evaluate multimodal reasoning with interleaved attention to visual details. O3-Bench features challenging problems that require agents to piece together subtle visual information from distinct image areas through multi-step reasoning. The problems are highly challenging even for frontier systems like OpenAI o3, which only obtains 40.8% accuracy on O3-Bench. To make progress, we propose InSight-o3, a multi-agent framework consisting of a visual reasoning agent (vReasoner) and a visual search agent (vSearcher) for which we introduce the task of generalized visual search -- locating relational, fuzzy, or conceptual regions described in free-form language, beyond just simple objects or figures in natural images. We then present a multimodal LLM purpose-trained for this task via reinforcement learning. As a plug-and-play agent, our vSearcher empowers frontier multimodal models (as vReasoners), significantly improving their performance on a wide range of benchmarks. This marks a concrete step towards powerful o3-like open systems. Our code and dataset can be found at https://github.com/m-Just/InSight-o3 .
PDF61December 30, 2025