Orion: Um Agente Visual Unificado para Percepção Multimodal, Raciocínio Visual Avançado e Execução

Resumo

Apresentamos o Orion, uma estrutura de agente visual capaz de receber qualquer modalidade e gerar qualquer modalidade. Utilizando uma estrutura agentiva com capacidades múltiplas de chamada de ferramentas, o Orion foi projetado para tarefas de IA visual e alcança resultados de última geração. Diferente dos modelos visuais-linguísticos tradicionais que produzem saídas descritivas, o Orion orquestra um conjunto de ferramentas especializadas de visão computacional, incluindo detecção de objetos, localização de pontos-chave, segmentação panóptica, Reconhecimento Óptico de Caracteres e análise geométrica, para executar fluxos de trabalho visuais complexos e multi-etapas. O sistema alcança desempenho competitivo em MMMU, MMBench, DocVQA e MMLongBench, ao mesmo tempo que estende modelos monolíticos visuais-linguísticos para uma inteligência visual de nível de produção. Ao combinar percepção neural com execução simbólica, o Orion possibilita o raciocínio visual autônomo, marcando uma transição da compreensão visual passiva para uma inteligência visual ativa e orientada por ferramentas.

English

We introduce Orion, a visual agent framework that can take in any modality and generate any modality. Using an agentic framework with multiple tool-calling capabilities, Orion is designed for visual AI tasks and achieves state-of-the-art results. Unlike traditional vision-language models that produce descriptive outputs, Orion orchestrates a suite of specialized computer vision tools, including object detection, keypoint localization, panoptic segmentation, Optical Character Recognition, and geometric analysis, to execute complex multi-step visual workflows. The system achieves competitive performance on MMMU, MMBench, DocVQA, and MMLongBench while extending monolithic vision-language models to production-grade visual intelligence. By combining neural perception with symbolic execution, Orion enables autonomous visual reasoning, marking a transition from passive visual understanding to active, tool-driven visual intelligence.