이것이 당신의 도지라면, 기쁘게 받아주세요: LLM 혼합 모델에서의 기만과 견고성 탐구
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
저자: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
초록
대규모 언어 모델(LLM) 에이전트의 혼합(MoA) 아키텍처는 추론 시점에 여러 LLM의 협업을 활용하여 AlpacaEval 2.0과 같은 주요 벤치마크에서 최첨단 성능을 달성합니다. 이러한 성공에도 불구하고, MoA의 안전성과 신뢰성에 대한 평가는 아직 이루어지지 않았습니다. 우리는 의도적으로 오해의 소지가 있는 응답을 제공하는 기만적인 LLM 에이전트에 대한 MoA의 견고성을 처음으로 포괄적으로 연구합니다. 우리는 기만적 정보의 전파, 모델 크기, 정보 가용성과 같은 요소를 검토하고 중요한 취약점을 발견했습니다. AlpacaEval 2.0에서 인기 있는 LLaMA 3.1-70B 모델은 3계층 MoA(6개의 LLM 에이전트)와 결합했을 때 길이 제어 승률(LC WR) 49.2%를 달성했습니다. 그러나 우리는 MoA에 단 하나의 신중하게 지시된 기만적 에이전트를 도입하는 것만으로도 성능을 37.9%로 떨어뜨려 모든 MoA의 이점을 무효화할 수 있음을 보여줍니다. 다중 선택 이해 과제인 QuALITY에서도 영향이 심각하여 정확도가 무려 48.5% 급락했습니다. 역사적인 베네치아 도제 투표 과정에서 영감을 받아, 우리는 영향력과 기만을 최소화하도록 설계된 다양한 비지도 방어 메커니즘을 제안하며, 이를 통해 대부분의 손실된 성능을 회복합니다.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.