Confianza Orquestador-Agente: Un Sistema de Clasificación Visual de IA Agéntica Modular con Orquestación Consciente de la Confianza y Razonamiento Basado en RAG

Resumen

La Inteligencia Artificial (IA) moderna depende cada vez más de arquitecturas multiagente que combinan la comprensión visual y del lenguaje. Sin embargo, persiste un desafío apremiante: ¿cómo podemos confiar en estos agentes, especialmente en entornos zero-shot sin ajuste fino? Presentamos un novedoso marco modular de clasificación visual de IA Agéntica que integra agentes multimodales generalistas con un orquestador de razonamiento no visual y un módulo de Generación Aumentada por Recuperación (RAG, por sus siglas en inglés). Aplicado al diagnóstico de enfermedades en hojas de manzano, evaluamos tres configuraciones: (I) zero-shot con orquestación basada en confianza, (II) agentes ajustados con mejor rendimiento, y (III) orquestación calibrada para la confianza, mejorada mediante recuperación de imágenes basada en CLIP y bucles de reevaluación. Utilizando métricas de calibración de confianza (ECE, OCR, CCC), el orquestador modula la confianza entre los agentes. Nuestros resultados muestran una mejora del 77.94% en precisión en el entorno zero-shot al emplear orquestación consciente de la confianza y RAG, alcanzando un 85.63% en general. GPT-4o demostró una mejor calibración, mientras que Qwen-2.5-VL mostró exceso de confianza. Además, las predicciones basadas en image-RAG se fundamentaron en casos visualmente similares, permitiendo corregir el exceso de confianza de los agentes mediante reevaluación iterativa. El sistema propuesto separa la percepción (agentes visuales) del meta-razonamiento (orquestador), permitiendo una IA multiagente escalable e interpretable. Este esquema es extensible a diagnósticos, biología y otros dominios críticos para la confianza. Todos los modelos, instrucciones, resultados y componentes del sistema, incluido el código fuente completo del software, se han liberado abiertamente para apoyar la reproducibilidad, transparencia y evaluación comunitaria en Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.

English

Modern Artificial Intelligence (AI) increasingly relies on multi-agent architectures that blend visual and language understanding. Yet, a pressing challenge remains: How can we trust these agents especially in zero-shot settings with no fine-tuning? We introduce a novel modular Agentic AI visual classification framework that integrates generalist multimodal agents with a non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG) module. Applied to apple leaf disease diagnosis, we benchmark three configurations: (I) zero-shot with confidence-based orchestration, (II) fine-tuned agents with improved performance, and (III) trust-calibrated orchestration enhanced by CLIP-based image retrieval and re-evaluation loops. Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator modulates trust across agents. Our results demonstrate a 77.94\% accuracy improvement in the zero-shot setting using trust-aware orchestration and RAG, achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL displayed overconfidence. Furthermore, image-RAG grounded predictions with visually similar cases, enabling correction of agent overconfidence via iterative re-evaluation. The proposed system separates perception (vision agents) from meta-reasoning (orchestrator), enabling scalable and interpretable multi-agent AI. This blueprint is extensible to diagnostics, biology, and other trust-critical domains. All models, prompts, results, and system components including the complete software source code are openly released to support reproducibility, transparency, and community benchmarking at Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust

Confianza Orquestador-Agente: Un Sistema de Clasificación Visual de IA Agéntica Modular con Orquestación Consciente de la Confianza y Razonamiento Basado en RAG

Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

Resumen

Support