Voici votre Doge, s'il vous plaît : Exploration de la tromperie et de la robustesse dans les mélanges de grands modèles de langage

papers.abstract

Les architectures de mélange d'agents de grands modèles de langage (MoA) atteignent des performances de pointe sur des benchmarks majeurs comme AlpacaEval 2.0 en exploitant la collaboration de plusieurs LLM au moment de l'inférence. Malgré ces succès, une évaluation de la sécurité et de la fiabilité des MoA fait défaut. Nous présentons la première étude approfondie de la robustesse des MoA face à des agents LLM trompeurs qui fournissent délibérément des réponses erronées. Nous examinons des facteurs tels que la propagation d'informations trompeuses, la taille des modèles et la disponibilité des informations, et mettons en lumière des vulnérabilités critiques. Sur AlpacaEval 2.0, le modèle populaire LLaMA 3.1-70B atteint un taux de victoire contrôlé en longueur (LC WR) de 49,2% lorsqu'il est couplé à un MoA à 3 couches (6 agents LLM). Cependant, nous démontrons que l'introduction d'un seul agent trompeur soigneusement instruit dans le MoA peut réduire la performance à 37,9%, annulant ainsi tous les gains du MoA. Sur QuALITY, une tâche de compréhension à choix multiples, l'impact est également sévère, avec une précision qui chute de manière spectaculaire de 48,5%. Inspirés en partie par le processus historique de vote du Doge de Venise, conçu pour minimiser l'influence et la tromperie, nous proposons une gamme de mécanismes de défense non supervisés qui permettent de récupérer la majeure partie de la performance perdue.

English

Mixture of large language model (LLMs) Agents (MoA) architectures achieve state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by leveraging the collaboration of multiple LLMs at inference time. Despite these successes, an evaluation of the safety and reliability of MoA is missing. We present the first comprehensive study of MoA's robustness against deceptive LLM agents that deliberately provide misleading responses. We examine factors like the propagation of deceptive information, model size, and information availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of 49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate that introducing only a single carefully-instructed deceptive agent into the MoA can reduce performance to 37.9%, effectively nullifying all MoA gains. On QuALITY, a multiple-choice comprehension task, the impact is also severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the historical Doge of Venice voting process, designed to minimize influence and deception, we propose a range of unsupervised defense mechanisms that recover most of the lost performance.

Voici votre Doge, s'il vous plaît : Exploration de la tromperie et de la robustesse dans les mélanges de grands modèles de langage

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

papers.abstract

Support