Questo è il tuo Doge, se ti aggrada: Esplorazione dell'Inganno e della Robustezza nei Modelli di Mistura di LLM
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
Autori: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
Abstract
Le architetture di Mixture of Agents (MoA) basate su modelli linguistici di grandi dimensioni (LLMs) raggiungono prestazioni all'avanguardia su benchmark di rilievo come AlpacaEval 2.0 sfruttando la collaborazione di più LLM durante l'inferenza. Nonostante questi successi, manca una valutazione della sicurezza e dell'affidabilità delle MoA. Presentiamo il primo studio completo sulla robustezza delle MoA contro agenti LLM ingannevoli che forniscono deliberatamente risposte fuorvianti. Esaminiamo fattori come la propagazione di informazioni ingannevoli, la dimensione del modello e la disponibilità delle informazioni, scoprendo vulnerabilità critiche. Su AlpacaEval 2.0, il popolare modello LLaMA 3.1-70B raggiunge un Win Rate controllato per lunghezza (LC WR) del 49,2% quando accoppiato a una MoA a 3 livelli (6 agenti LLM). Tuttavia, dimostriamo che l'introduzione di un singolo agente ingannevole accuratamente istruito nella MoA può ridurre le prestazioni al 37,9%, annullando di fatto tutti i vantaggi della MoA. Su QuALITY, un task di comprensione a scelta multipla, l'impatto è altrettanto grave, con un'accuratezza che precipita di un sorprendente 48,5%. Ispirati in parte dal processo storico di voto del Doge di Venezia, progettato per minimizzare l'influenza e l'inganno, proponiamo una gamma di meccanismi di difesa non supervisionati che recuperano la maggior parte delle prestazioni perdute.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary