これがあなたのドージです、お気に召すなら:LLMの混合における欺瞞と堅牢性の探求
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
著者: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
要旨
大規模言語モデル(LLM)エージェントの混合(MoA)アーキテクチャは、推論時に複数のLLMの協力を活用することで、AlpacaEval 2.0などの主要なベンチマークで最先端の性能を達成しています。しかし、これらの成功にもかかわらず、MoAの安全性と信頼性に関する評価は欠如しています。本研究では、意図的に誤った応答を提供する欺瞞的なLLMエージェントに対するMoAの堅牢性を初めて包括的に調査します。私たちは、欺瞞的情報の伝播、モデルサイズ、情報の可用性などの要因を検証し、重大な脆弱性を明らかにします。AlpacaEval 2.0において、人気のあるLLaMA 3.1-70Bモデルは、3層のMoA(6つのLLMエージェント)と組み合わせることで、長さ制御付き勝率(LC WR)49.2%を達成します。しかし、MoAにわずか1つの注意深く指示された欺瞞的エージェントを導入するだけで、性能が37.9%に低下し、MoAのすべての利点が無効化されることを示します。多肢選択理解タスクであるQuALITYにおいても、その影響は深刻で、精度が驚異的な48.5%も急落します。影響と欺瞞を最小化するために設計された歴史的なヴェネツィアのドージェ選挙プロセスに一部インスパイアされ、私たちは、失われた性能の大部分を回復する一連の教師なし防御メカニズムを提案します。
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary