Orchestrator-Agent Vertrouwen: Een Modulair Agentisch AI Visueel Classificatiesysteem met Vertrouwensbewuste Orchestratie en RAG-Gebaseerd Redeneren
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning
July 9, 2025
Auteurs: Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas
cs.AI
Samenvatting
Moderne Kunstmatige Intelligentie (AI) maakt steeds meer gebruik van multi-agent architecturen die visueel en taalkundig begrip combineren. Toch blijft er een dringende uitdaging bestaan: Hoe kunnen we deze agenten vertrouwen, vooral in zero-shot situaties zonder fine-tuning? We introduceren een nieuw modulair Agentic AI-visueel classificatiekader dat generalistische multimodale agenten integreert met een niet-visuele redeneerorchestrator en een Retrieval-Augmented Generation (RAG)-module. Toegepast op de diagnose van appelschimmelziekten, vergelijken we drie configuraties: (I) zero-shot met vertrouwensgebaseerde orchestratie, (II) fine-tuned agenten met verbeterde prestaties, en (III) vertrouwensgekalibreerde orchestratie versterkt door CLIP-gebaseerde beeldretrieval en herbeoordelingslussen. Met behulp van vertrouwenskalibratiemetrics (ECE, OCR, CCC) moduleert de orchestrator het vertrouwen tussen agenten. Onze resultaten tonen een nauwkeurigheidsverbetering van 77,94% in de zero-shot setting door gebruik te maken van vertrouwensbewuste orchestratie en RAG, wat resulteert in een algehele nauwkeurigheid van 85,63%. GPT-4o toonde betere kalibratie, terwijl Qwen-2.5-VL overmatig zelfvertrouwen vertoonde. Bovendien verankerde image-RAG voorspellingen met visueel vergelijkbare gevallen, waardoor overmatig zelfvertrouwen van agenten gecorrigeerd kon worden via iteratieve herbeoordeling. Het voorgestelde systeem scheidt perceptie (visieagenten) van meta-redenering (orchestrator), wat schaalbare en interpreteerbare multi-agent AI mogelijk maakt. Dit blauwdruk is uitbreidbaar naar diagnostiek, biologie en andere vertrouwenskritieke domeinen. Alle modellen, prompts, resultaten en systeemcomponenten, inclusief de complete softwarebroncode, zijn openbaar vrijgegeven ter ondersteuning van reproduceerbaarheid, transparantie en community benchmarking op Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust
English
Modern Artificial Intelligence (AI) increasingly relies on multi-agent
architectures that blend visual and language understanding. Yet, a pressing
challenge remains: How can we trust these agents especially in zero-shot
settings with no fine-tuning? We introduce a novel modular Agentic AI visual
classification framework that integrates generalist multimodal agents with a
non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG)
module. Applied to apple leaf disease diagnosis, we benchmark three
configurations: (I) zero-shot with confidence-based orchestration, (II)
fine-tuned agents with improved performance, and (III) trust-calibrated
orchestration enhanced by CLIP-based image retrieval and re-evaluation loops.
Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator
modulates trust across agents. Our results demonstrate a 77.94\% accuracy
improvement in the zero-shot setting using trust-aware orchestration and RAG,
achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL
displayed overconfidence. Furthermore, image-RAG grounded predictions with
visually similar cases, enabling correction of agent overconfidence via
iterative re-evaluation. The proposed system separates perception (vision
agents) from meta-reasoning (orchestrator), enabling scalable and interpretable
multi-agent AI. This blueprint is extensible to diagnostics, biology, and other
trust-critical domains. All models, prompts, results, and system components
including the complete software source code are openly released to support
reproducibility, transparency, and community benchmarking at Github:
https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust