Confiance Orchestrateur-Agent : Un système modulaire de classification visuelle par IA agentique avec orchestration sensible à la confiance et raisonnement basé sur RAG

papers.abstract

L'intelligence artificielle (IA) moderne repose de plus en plus sur des architectures multi-agents qui intègrent la compréhension visuelle et linguistique. Cependant, un défi majeur persiste : comment faire confiance à ces agents, en particulier dans des contextes zero-shot sans ajustement fin ? Nous présentons un nouveau cadre modulaire de classification visuelle par IA agentique, qui intègre des agents multimodaux généralistes avec un orchestrateur de raisonnement non visuel et un module de génération augmentée par récupération (RAG). Appliqué au diagnostic des maladies des feuilles de pommier, nous évaluons trois configurations : (I) zero-shot avec orchestration basée sur la confiance, (II) agents ajustés avec des performances améliorées, et (III) orchestration calibrée pour la confiance, renforcée par la récupération d'images basée sur CLIP et des boucles de réévaluation. À l'aide de métriques de calibration de confiance (ECE, OCR, CCC), l'orchestrateur module la confiance entre les agents. Nos résultats montrent une amélioration de 77,94 % en précision dans le cadre zero-shot grâce à l'orchestration basée sur la confiance et le RAG, atteignant 85,63 % au total. GPT-4o a montré une meilleure calibration, tandis que Qwen-2.5-VL a affiché une surconfiance. De plus, les prédictions basées sur l'image-RAG s'appuyaient sur des cas visuellement similaires, permettant de corriger la surconfiance des agents via une réévaluation itérative. Le système proposé sépare la perception (agents visuels) de la méta-raison (orchestrateur), permettant une IA multi-agent évolutive et interprétable. Ce modèle est extensible aux diagnostics, à la biologie et à d'autres domaines critiques pour la confiance. Tous les modèles, prompts, résultats et composants du système, y compris le code source complet, sont librement disponibles pour soutenir la reproductibilité, la transparence et l'évaluation communautaire sur Github : https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.

English

Modern Artificial Intelligence (AI) increasingly relies on multi-agent architectures that blend visual and language understanding. Yet, a pressing challenge remains: How can we trust these agents especially in zero-shot settings with no fine-tuning? We introduce a novel modular Agentic AI visual classification framework that integrates generalist multimodal agents with a non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG) module. Applied to apple leaf disease diagnosis, we benchmark three configurations: (I) zero-shot with confidence-based orchestration, (II) fine-tuned agents with improved performance, and (III) trust-calibrated orchestration enhanced by CLIP-based image retrieval and re-evaluation loops. Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator modulates trust across agents. Our results demonstrate a 77.94\% accuracy improvement in the zero-shot setting using trust-aware orchestration and RAG, achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL displayed overconfidence. Furthermore, image-RAG grounded predictions with visually similar cases, enabling correction of agent overconfidence via iterative re-evaluation. The proposed system separates perception (vision agents) from meta-reasoning (orchestrator), enabling scalable and interpretable multi-agent AI. This blueprint is extensible to diagnostics, biology, and other trust-critical domains. All models, prompts, results, and system components including the complete software source code are openly released to support reproducibility, transparency, and community benchmarking at Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust

Confiance Orchestrateur-Agent : Un système modulaire de classification visuelle par IA agentique avec orchestration sensible à la confiance et raisonnement basé sur RAG

Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

papers.abstract

Support