Orion: Un Agente Visual Unificado para Percepción Multimodal, Razonamiento Visual Avanzado y Ejecución

Resumen

Presentamos Orion, un marco de agente visual capaz de procesar cualquier modalidad y generar cualquier modalidad. Utilizando un marco agentico con capacidades múltiples de llamada a herramientas, Orion está diseñado para tareas de IA visual y logra resultados de vanguardia. A diferencia de los modelos visión-lenguaje tradicionales que producen salidas descriptivas, Orion orquesta un conjunto de herramientas especializadas de visión por computadora, que incluyen detección de objetos, localización de puntos clave, segmentación panóptica, reconocimiento óptico de caracteres y análisis geométrico, para ejecutar flujos de trabajo visuales complejos y multi-etapa. El sistema logra un rendimiento competitivo en MMMU, MMBench, DocVQA y MMLongBench, al tiempo que extiende los modelos monolíticos visión-lenguaje hacia una inteligencia visual de grado productivo. Al combinar la percepción neuronal con la ejecución simbólica, Orion permite el razonamiento visual autónomo, marcando una transición desde la comprensión visual pasiva hacia una inteligencia visual activa e impulsada por herramientas.

English

We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.