Orion: Ein einheitlicher visueller Agent für multimodale Wahrnehmung, erweitertes visuelles Schließen und Ausführung
Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
November 18, 2025
papers.authors: N Dinesh Reddy, Sudeep Pillai
cs.AI
papers.abstract
Wir stellen Orion vor, einen visuellen Agenten-Rahmen, der beliebige Modalitäten aufnehmen und generieren kann. Durch einen agentenbasierten Rahmen mit mehreren Tool-Calling-Fähigkeiten ist Orion für visuelle KI-Aufgaben konzipiert und erzielt state-of-the-art Ergebnisse. Im Gegensatz zu traditionellen Vision-Language-Modellen, die deskriptive Ausgaben erzeugen, orchestriert Orion eine Reihe spezialisierter Computer-Vision-Tools – einschließlich Objekterkennung, Keypoint-Lokalisierung, panoptischer Segmentierung, optischer Zeichenerkennung und geometrischer Analyse – um komplexe, mehrstufige visuelle Workflows auszuführen. Das System erzielt wettbewerbsfähige Leistungen auf MMMU, MMBench, DocVQA und MMLongBench und erweitert dabei monolithische Vision-Language-Modelle zu produktionsreifer visueller Intelligenz. Durch die Kombination von neuronaler Wahrnehmung mit symbolischer Ausführung ermöglicht Orion autonomes visuelles Reasoning und markiert damit den Übergang von passivem visuellem Verständnis zu aktiver, tool-gesteuerter visueller Intelligenz.
English
We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.