Orion : Un agent visuel unifié pour la perception multimodale, le raisonnement visuel avancé et l'exécution

Résumé

Nous présentons Orion, un cadre d'agent visuel capable de traiter toute modalité en entrée et de générer toute modalité en sortie. S'appuyant sur une architecture agentique dotée de capacités multiples d'appel d'outils, Orion est conçu pour les tâches d'intelligence artificielle visuelle et obtient des résultats à la pointe de l'état de l'art. Contrairement aux modèles vision-langage traditionnels produisant des sorties descriptives, Orion orchestre une suite d'outils spécialisés en vision par ordinateur, incluant la détection d'objets, la localisation de points-clés, la segmentation panoptique, la reconnaissance optique de caractères et l'analyse géométrique, pour exécuter des workflows visuels complexes multi-étapes. Le système atteint des performances compétitives sur MMMU, MMBench, DocVQA et MMLongBench tout en étendant les modèles monolithiques vision-langage vers une intelligence visuelle de qualité industrielle. En combinant la perception neuronale avec l'exécution symbolique, Orion permet un raisonnement visuel autonome, marquant une transition entre la compréhension visuelle passive et une intelligence visuelle active pilotée par des outils.

English

We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.