Доверие между Оркестратором и Агентом: Модульная агентная система визуальной классификации ИИ с доверительно-ориентированной оркестрацией и рассуждениями на основе RAG
Orchestrator-Agent Trust: A Modular Agentic AI Visual Classification System with Trust-Aware Orchestration and RAG-Based Reasoning
July 9, 2025
Авторы: Konstantinos I. Roumeliotis, Ranjan Sapkota, Manoj Karkee, Nikolaos D. Tselikas
cs.AI
Аннотация
Современный искусственный интеллект (ИИ) всё чаще опирается на многоагентные архитектуры, объединяющие визуальное и языковое понимание. Однако остаётся актуальный вопрос: как можно доверять этим агентам, особенно в условиях zero-shot, без тонкой настройки? Мы представляем новую модульную фреймворк для визуальной классификации на основе агентного ИИ, который интегрирует универсальных мультимодальных агентов с оркестратором, выполняющим невизуальное рассуждение, и модулем Retrieval-Augmented Generation (RAG). Применяя этот подход к диагностике заболеваний листьев яблони, мы тестируем три конфигурации: (I) zero-shot с оркестрацией на основе уверенности, (II) тонко настроенные агенты с улучшенной производительностью и (III) оркестрация с калибровкой доверия, усиленная поиском изображений на основе CLIP и циклами переоценки. Используя метрики калибровки уверенности (ECE, OCR, CCC), оркестратор регулирует доверие между агентами. Наши результаты показывают улучшение точности на 77,94% в условиях zero-shot при использовании оркестрации с учётом доверия и RAG, достигая общей точности 85,63%. GPT-4o продемонстрировал лучшую калибровку, в то время как Qwen-2.5-VL показал излишнюю уверенность. Кроме того, прогнозы, основанные на image-RAG, были подкреплены визуально схожими случаями, что позволило исправить излишнюю уверенность агентов через итеративную переоценку. Предложенная система разделяет восприятие (визуальные агенты) и мета-рассуждения (оркестратор), обеспечивая масштабируемый и интерпретируемый многоагентный ИИ. Этот подход может быть расширен для диагностики, биологии и других областей, где критически важно доверие. Все модели, промпты, результаты и компоненты системы, включая полный исходный код программного обеспечения, открыто опубликованы для поддержки воспроизводимости, прозрачности и сравнительного анализа сообществом на GitHub: https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust.
English
Modern Artificial Intelligence (AI) increasingly relies on multi-agent
architectures that blend visual and language understanding. Yet, a pressing
challenge remains: How can we trust these agents especially in zero-shot
settings with no fine-tuning? We introduce a novel modular Agentic AI visual
classification framework that integrates generalist multimodal agents with a
non-visual reasoning orchestrator and a Retrieval-Augmented Generation (RAG)
module. Applied to apple leaf disease diagnosis, we benchmark three
configurations: (I) zero-shot with confidence-based orchestration, (II)
fine-tuned agents with improved performance, and (III) trust-calibrated
orchestration enhanced by CLIP-based image retrieval and re-evaluation loops.
Using confidence calibration metrics (ECE, OCR, CCC), the orchestrator
modulates trust across agents. Our results demonstrate a 77.94\% accuracy
improvement in the zero-shot setting using trust-aware orchestration and RAG,
achieving 85.63\% overall. GPT-4o showed better calibration, while Qwen-2.5-VL
displayed overconfidence. Furthermore, image-RAG grounded predictions with
visually similar cases, enabling correction of agent overconfidence via
iterative re-evaluation. The proposed system separates perception (vision
agents) from meta-reasoning (orchestrator), enabling scalable and interpretable
multi-agent AI. This blueprint is extensible to diagnostics, biology, and other
trust-critical domains. All models, prompts, results, and system components
including the complete software source code are openly released to support
reproducibility, transparency, and community benchmarking at Github:
https://github.com/Applied-AI-Research-Lab/Orchestrator-Agent-Trust