ChatPaper.aiChatPaper

이것이 당신의 도지라면, 기쁘게 받아주세요: LLM 혼합 모델에서의 기만과 견고성 탐구

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

March 7, 2025
저자: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI

초록

대규모 언어 모델(LLM) 에이전트의 혼합(MoA) 아키텍처는 추론 시점에 여러 LLM의 협업을 활용하여 AlpacaEval 2.0과 같은 주요 벤치마크에서 최첨단 성능을 달성합니다. 이러한 성공에도 불구하고, MoA의 안전성과 신뢰성에 대한 평가는 아직 이루어지지 않았습니다. 우리는 의도적으로 오해의 소지가 있는 응답을 제공하는 기만적인 LLM 에이전트에 대한 MoA의 견고성을 처음으로 포괄적으로 연구합니다. 우리는 기만적 정보의 전파, 모델 크기, 정보 가용성과 같은 요소를 검토하고 중요한 취약점을 발견했습니다. AlpacaEval 2.0에서 인기 있는 LLaMA 3.1-70B 모델은 3계층 MoA(6개의 LLM 에이전트)와 결합했을 때 길이 제어 승률(LC WR) 49.2%를 달성했습니다. 그러나 우리는 MoA에 단 하나의 신중하게 지시된 기만적 에이전트를 도입하는 것만으로도 성능을 37.9%로 떨어뜨려 모든 MoA의 이점을 무효화할 수 있음을 보여줍니다. 다중 선택 이해 과제인 QuALITY에서도 영향이 심각하여 정확도가 무려 48.5% 급락했습니다. 역사적인 베네치아 도제 투표 과정에서 영감을 받아, 우리는 영향력과 기만을 최소화하도록 설계된 다양한 비지도 방어 메커니즘을 제안하며, 이를 통해 대부분의 손실된 성능을 회복합니다.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by leveraging the collaboration of multiple LLMs at inference time. Despite these successes, an evaluation of the safety and reliability of MoA is missing. We present the first comprehensive study of MoA's robustness against deceptive LLM agents that deliberately provide misleading responses. We examine factors like the propagation of deceptive information, model size, and information availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of 49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate that introducing only a single carefully-instructed deceptive agent into the MoA can reduce performance to 37.9%, effectively nullifying all MoA gains. On QuALITY, a multiple-choice comprehension task, the impact is also severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the historical Doge of Venice voting process, designed to minimize influence and deception, we propose a range of unsupervised defense mechanisms that recover most of the lost performance.
PDF72March 11, 2025