Dit Is Jouw Doge, Als Het U Bevalt: Onderzoek naar Misleiding en Robuustheid in Mengsels van LLM's
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
Auteurs: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
Samenvatting
Architecturen van Mixture of Large Language Model Agents (MoA) behalen
state-of-the-art prestaties op toonaangevende benchmarks zoals AlpacaEval 2.0
door de samenwerking van meerdere LLM's tijdens inferentie te benutten. Ondanks
deze successen ontbreekt een evaluatie van de veiligheid en betrouwbaarheid van
MoA. Wij presenteren de eerste uitgebreide studie naar de robuustheid van MoA
tegenover misleidende LLM-agents die opzettelijk foutieve antwoorden geven. We
onderzoeken factoren zoals de verspreiding van misleidende informatie, modelgrootte
en informatiebeschikbaarheid, en leggen kritieke kwetsbaarheden bloot. Op AlpacaEval 2.0
behaalt het populaire LLaMA 3.1-70B-model een lengte-gecontroleerde Win Rate (LC WR)
van 49,2% wanneer het wordt gekoppeld aan een 3-laags MoA (6 LLM-agents). Echter,
tonen we aan dat de introductie van slechts één zorgvuldig geïnstrueerde misleidende agent
in de MoA de prestaties kan terugbrengen tot 37,9%, waardoor alle MoA-winsten
effectief teniet worden gedaan. Op QuALITY, een meerkeuzebegripstaak, is de impact
eveneens ernstig, waarbij de nauwkeurigheid met een verbijsterende 48,5% daalt.
Gedeeltelijk geïnspireerd door het historische Doge van Venetië-stemproces, dat
ontworpen is om invloed en misleiding te minimaliseren, stellen we een reeks
ongecontroleerde verdedigingsmechanismen voor die het grootste deel van de verloren
prestaties herstellen.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary