ChatPaper.aiChatPaper

Confiança Orquestrador-Agente: Um Sistema Modular de Classificação Visual por IA Agêntica com Orquestração Consciente de Confiança e Raciocínio Baseado em RAG

Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

July 9, 2025
Autores: Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas
cs.AI

Resumo

A Inteligência Artificial (IA) moderna depende cada vez mais de arquiteturas multiagentes que integram compreensão visual e linguística. No entanto, um desafio urgente persiste: Como podemos confiar nesses agentes, especialmente em cenários zero-shot sem ajuste fino? Apresentamos uma nova estrutura modular de classificação visual de IA Agente que integra agentes multimodais generalistas com um orquestrador de raciocínio não visual e um módulo de Geração Aumentada por Recuperação (RAG). Aplicado ao diagnóstico de doenças em folhas de maçã, avaliamos três configurações: (I) zero-shot com orquestração baseada em confiança, (II) agentes ajustados com desempenho aprimorado e (III) orquestração calibrada para confiança, reforçada por recuperação de imagens baseada em CLIP e loops de reavaliação. Usando métricas de calibração de confiança (ECE, OCR, CCC), o orquestrador modula a confiança entre os agentes. Nossos resultados demonstram uma melhoria de 77,94% na precisão no cenário zero-shot usando orquestração consciente da confiança e RAG, alcançando 85,63% no geral. O GPT-4o mostrou melhor calibração, enquanto o Qwen-2.5-VL exibiu excesso de confiança. Além disso, o RAG de imagens fundamentou previsões com casos visualmente semelhantes, permitindo a correção do excesso de confiança dos agentes por meio de reavaliação iterativa. O sistema proposto separa a percepção (agentes visuais) do meta-raciocínio (orquestrador), permitindo uma IA multiagente escalável e interpretável. Este modelo é extensível a diagnósticos, biologia e outros domínios críticos para a confiança. Todos os modelos, prompts, resultados e componentes do sistema, incluindo o código-fonte completo do software, são liberados abertamente para apoiar a reprodutibilidade, transparência e benchmarking comunitário no Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
English
Modern Artificial Intelligence (AI) increasingly relies on multi-agent architectures that blend visual and language understanding. Yet, a pressing challenge remains: How can we trust these agents especially in zero-shot settings with no fine-tuning? We introduce a novel modular Agentic AI visual classification framework that integrates generalist multimodal agents with a non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG) module. Applied to apple leaf disease diagnosis, we benchmark three configurations: (I) zero-shot with confidence-based orchestration, (II) fine-tuned agents with improved performance, and (III) trust-calibrated orchestration enhanced by CLIP-based image retrieval and re-evaluation loops. Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator modulates trust across agents. Our results demonstrate a 77.94\% accuracy improvement in the zero-shot setting using trust-aware orchestration and RAG, achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL displayed overconfidence. Furthermore, image-RAG grounded predictions with visually similar cases, enabling correction of agent overconfidence via iterative re-evaluation. The proposed system separates perception (vision agents) from meta-reasoning (orchestrator), enabling scalable and interpretable multi-agent AI. This blueprint is extensible to diagnostics, biology, and other trust-critical domains. All models, prompts, results, and system components including the complete software source code are openly released to support reproducibility, transparency, and community benchmarking at Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
PDF31July 16, 2025