Обзор методов оценки агентов на основе языковых моделейSurvey on Evaluation of LLM-based Agents
Появление агентов на основе больших языковых моделей (LLM) представляет собой смену парадигмы в области ИИ, позволяя автономным системам планировать, рассуждать, использовать инструменты и поддерживать память при взаимодействии с динамическими средами. В данной статье представлен первый всесторонний обзор методологий оценки этих всё более способных агентов. Мы систематически анализируем эталонные тесты и фреймворки по четырём ключевым направлениям: (1) базовые способности агентов, включая планирование, использование инструментов, саморефлексию и память; (2) специализированные тесты для веб-агентов, агентов в области разработки программного обеспечения, научных и диалоговых агентов; (3) тесты для универсальных агентов; и (4) фреймворки для оценки агентов. Наш анализ выявляет новые тенденции, включая переход к более реалистичным и сложным оценкам с постоянно обновляемыми тестами. Мы также определяем ключевые пробелы, которые необходимо устранить в будущих исследованиях, особенно в оценке экономической эффективности, безопасности и устойчивости, а также в разработке детализированных и масштабируемых методов оценки. Этот обзор описывает быстро развивающуюся область оценки агентов, выявляет новые тенденции, определяет текущие ограничения и предлагает направления для будущих исследований.