Это ваш Додж, если хотите: Исследование обмана и устойчивости в смесях больших языковых моделей
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
Авторы: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
Аннотация
Архитектуры смеси агентов на основе больших языковых моделей (Mixture of LLM Agents, MoA) достигают наилучших результатов на известных бенчмарках, таких как AlpacaEval 2.0, за счет совместной работы нескольких языковых моделей на этапе вывода. Несмотря на эти успехи, оценка безопасности и надежности MoA остается недостаточно изученной. Мы представляем первое всестороннее исследование устойчивости MoA к обманчивым агентам, которые намеренно предоставляют вводящую в заблуждение информацию. Мы изучаем такие факторы, как распространение ложной информации, размер модели и доступность данных, и выявляем критические уязвимости. На AlpacaEval 2.0 популярная модель LLaMA 3.1-70B в сочетании с трехслойной MoA (6 агентов) достигает длины-контролируемого показателя выигрыша (LC WR) в 49,2%. Однако мы показываем, что введение всего одного тщательно настроенного обманчивого агента в MoA снижает производительность до 37,9%, фактически сводя на нет все преимущества MoA. На задаче множественного выбора QuALITY влияние также оказывается значительным: точность падает на ошеломляющие 48,5%. Вдохновленные историческим процессом голосования Дожа Венеции, разработанным для минимизации влияния и обмана, мы предлагаем ряд неконтролируемых механизмов защиты, которые восстанавливают большую часть потерянной производительности.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary