ChatPaper.aiChatPaper

Орион: унифицированный визуальный агент для мультимодального восприятия, расширенного визуального анализа и выполнения задач

Orion: A Unified Visual Agent for Multimodal Perception, Advanced Visual Reasoning and Execution

November 18, 2025
Авторы: N Dinesh Reddy, Sudeep Pillai
cs.AI

Аннотация

Мы представляем Orion — фреймворк визуального агента, способный воспринимать данные любой модальности и генерировать выходные сигналы любой модальности. Используя агентский фреймворк с множественными возможностями вызова инструментов, Orion разработан для задач визуального искусственного интеллекта и демонстрирует результаты уровня state-of-the-art. В отличие от традиционных визуально-языковых моделей, которые выдают описательные результаты, Orion координирует набор специализированных инструментов компьютерного зрения, включая обнаружение объектов, локализацию ключевых точек, паноптическую сегментацию, оптическое распознавание символов и геометрический анализ, для выполнения сложных многоэтапных визуальных workflow. Система демонстрирует конкурентоспособные результаты на бенчмарках MMMU, MMBench, DocVQA и MMLongBench, расширяя возможности монолитных визуально-языковых моделей до промышленного уровня визуального интеллекта. Комбинируя нейронное восприятие с символьным исполнением, Orion обеспечивает автономное визуальное мышление, знаменуя переход от пассивного визуального понимания к активному, инструментально-ориентированному визуальному интеллекту.
English
We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.
PDF193December 1, 2025