Orion: Een uniforme visuele agent voor multimodale perceptie, geavanceerd visueel redeneren en uitvoering
Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
November 18, 2025
Auteurs: N Dinesh Reddy, Sudeep Pillai
cs.AI
Samenvatting
Wij introduceren Orion, een visueel agentframework dat elke modaliteit kan verwerken en genereren. Met behulp van een agentframework met meerdere tool-aanroepmogelijkheden is Orion ontworpen voor visuele AI-taken en behaalt het state-of-the-art resultaten. In tegenstelling tot traditionele vision-language modellen die beschrijvende outputs produceren, coördineert Orion een reeks gespecialiseerde computer vision tools, waaronder objectdetectie, keypoint-localisatie, panoptische segmentatie, optische tekenherkenning en geometrische analyse, om complexe meerstaps visuele workflows uit te voeren. Het systeem behaalt competitieve prestaties op MMMU, MMBench, DocVQA en MMLongBench, en breidt monolithische vision-language modellen uit tot productieklare visuele intelligentie. Door neurale perceptie te combineren met symbolische uitvoering, maakt Orion autonome visuele redenering mogelijk, wat een overgang markeert van passief visueel begrip naar actieve, tool-gestuurde visuele intelligentie.
English
We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.