Orion: un agente visivo unificato per la percezione multimodale, il ragionamento visivo avanzato e l'esecuzione
Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution
November 18, 2025
Autori: N Dinesh Reddy, Sudeep Pillai
cs.AI
Abstract
Presentiamo Orion, un framework per agenti visivi in grado di accettare qualsiasi modalità in input e generare qualsiasi modalità in output. Basandosi su un'architettura agentiva con capacità multimodali di tool-calling, Orion è progettato specificamente per task di intelligenza artificiale visiva e raggiunge risultati allo stato dell'arte. A differenza dei tradizionali modelli visione-linguaggio che producono output descrittivi, Orion orchestra una suite di strumenti specializzati di computer vision - inclusi object detection, localizzazione di keypoint, segmentazione panottica, riconoscimento ottico dei caratteri e analisi geometrica - per eseguire workflow visivi complessi e multi-step. Il sistema raggiunge performance competitive su MMMU, MMBench, DocVQA e MMLongBench, estendendo i modelli monolitici visione-linguaggio verso un'intelligenza visiva di livello production-grade. Combinando percezione neurale con esecuzione simbolica, Orion abilita ragionamento visivo autonomo, segnando una transizione dalla comprensione visiva passiva a un'intelligenza visiva attiva e guidata da strumenti.
English
We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.