Voici votre Doge, s'il vous plaît : Exploration de la tromperie et de la robustesse dans les mélanges de grands modèles de langage
This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs
March 7, 2025
Auteurs: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI
Résumé
Les architectures de mélange d'agents de grands modèles de langage (MoA) atteignent des performances de pointe sur des benchmarks majeurs comme AlpacaEval 2.0 en exploitant la collaboration de plusieurs LLM au moment de l'inférence. Malgré ces succès, une évaluation de la sécurité et de la fiabilité des MoA fait défaut. Nous présentons la première étude approfondie de la robustesse des MoA face à des agents LLM trompeurs qui fournissent délibérément des réponses erronées. Nous examinons des facteurs tels que la propagation d'informations trompeuses, la taille des modèles et la disponibilité des informations, et mettons en lumière des vulnérabilités critiques. Sur AlpacaEval 2.0, le modèle populaire LLaMA 3.1-70B atteint un taux de victoire contrôlé en longueur (LC WR) de 49,2% lorsqu'il est couplé à un MoA à 3 couches (6 agents LLM). Cependant, nous démontrons que l'introduction d'un seul agent trompeur soigneusement instruit dans le MoA peut réduire la performance à 37,9%, annulant ainsi tous les gains du MoA. Sur QuALITY, une tâche de compréhension à choix multiples, l'impact est également sévère, avec une précision qui chute de manière spectaculaire de 48,5%. Inspirés en partie par le processus historique de vote du Doge de Venise, conçu pour minimiser l'influence et la tromperie, nous proposons une gamme de mécanismes de défense non supervisés qui permettent de récupérer la majeure partie de la performance perdue.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve
state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by
leveraging the collaboration of multiple LLMs at inference time. Despite these
successes, an evaluation of the safety and reliability of MoA is missing. We
present the first comprehensive study of MoA's robustness against deceptive LLM
agents that deliberately provide misleading responses. We examine factors like
the propagation of deceptive information, model size, and information
availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the
popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of
49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate
that introducing only a single carefully-instructed deceptive agent
into the MoA can reduce performance to 37.9%, effectively nullifying all MoA
gains. On QuALITY, a multiple-choice comprehension task, the impact is also
severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the
historical Doge of Venice voting process, designed to minimize influence and
deception, we propose a range of unsupervised defense mechanisms that recover
most of the lost performance.Summary
AI-Generated Summary