Orchestrator-Agent-Vertrauen: Ein modulares agentenbasiertes KI-System zur visuellen Klassifikation mit vertrauensbewusster Orchestrierung und RAG-basiertem Reasoning

papers.abstract

Moderne Künstliche Intelligenz (KI) setzt zunehmend auf Multi-Agenten-Architekturen, die visuelles und sprachliches Verständnis kombinieren. Dennoch bleibt eine dringende Herausforderung bestehen: Wie können wir diesen Agenten vertrauen, insbesondere in Zero-Shot-Szenarien ohne Feinabstimmung? Wir stellen ein neuartiges modulares Agentic AI-Framework zur visuellen Klassifizierung vor, das generalistische multimodale Agenten mit einem nicht-visuellen Reasoning-Orchestrator und einem Retrieval-Augmented Generation (RAG)-Modul integriert. Angewendet auf die Diagnose von Apfelblattkrankheiten, vergleichen wir drei Konfigurationen: (I) Zero-Shot mit vertrauensbasierter Orchestrierung, (II) feinabgestimmte Agenten mit verbesserter Leistung und (III) vertrauenskalibrierte Orchestrierung, die durch CLIP-basiertes Bild-Retrieval und Re-Evaluationsschleifen erweitert wird. Mithilfe von Vertrauenskalibrierungsmetriken (ECE, OCR, CCC) moduliert der Orchestrator das Vertrauen zwischen den Agenten. Unsere Ergebnisse zeigen eine Verbesserung der Genauigkeit um 77,94 % im Zero-Shot-Setting durch vertrauensbewusste Orchestrierung und RAG, wodurch insgesamt 85,63 % erreicht werden. GPT-4o zeigte eine bessere Kalibrierung, während Qwen-2.5-VL Überzuversicht aufwies. Darüber hinaus verankerte das Bild-RAG Vorhersagen mit visuell ähnlichen Fällen, wodurch die Korrektur von Überzuversicht der Agenten durch iterative Re-Evaluation ermöglicht wurde. Das vorgeschlagene System trennt Wahrnehmung (Vision-Agenten) vom Meta-Reasoning (Orchestrator) und ermöglicht so skalierbare und interpretierbare Multi-Agenten-KI. Dieser Entwurf ist auf Diagnostik, Biologie und andere vertrauenskritische Domänen erweiterbar. Alle Modelle, Prompts, Ergebnisse und Systemkomponenten, einschließlich des vollständigen Software-Quellcodes, werden offen veröffentlicht, um Reproduzierbarkeit, Transparenz und Community-Benchmarking zu unterstützen: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.

English

Modern Artificial Intelligence (AI) increasingly relies on multi-agent architectures that blend visual and language understanding. Yet, a pressing challenge remains: How can we trust these agents especially in zero-shot settings with no fine-tuning? We introduce a novel modular Agentic AI visual classification framework that integrates generalist multimodal agents with a non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG) module. Applied to apple leaf disease diagnosis, we benchmark three configurations: (I) zero-shot with confidence-based orchestration, (II) fine-tuned agents with improved performance, and (III) trust-calibrated orchestration enhanced by CLIP-based image retrieval and re-evaluation loops. Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator modulates trust across agents. Our results demonstrate a 77.94\% accuracy improvement in the zero-shot setting using trust-aware orchestration and RAG, achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL displayed overconfidence. Furthermore, image-RAG grounded predictions with visually similar cases, enabling correction of agent overconfidence via iterative re-evaluation. The proposed system separates perception (vision agents) from meta-reasoning (orchestrator), enabling scalable and interpretable multi-agent AI. This blueprint is extensible to diagnostics, biology, and other trust-critical domains. All models, prompts, results, and system components including the complete software source code are openly released to support reproducibility, transparency, and community benchmarking at Github: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust

Orchestrator-Agent-Vertrauen: Ein modulares agentenbasiertes KI-System zur visuellen Klassifikation mit vertrauensbewusster Orchestrierung und RAG-basiertem Reasoning

Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning

papers.abstract

Support