ChatPaper.aiChatPaper

Este É Seu Doge, Se Assim Lhe Aprouver: Explorando Engano e Robustez em Misturas de Modelos de Linguagem de Grande Escala

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

March 7, 2025
Autores: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI

Resumo

Arquiteturas de Mistura de Agentes de Modelos de Linguagem de Grande Escala (MoA) alcançam desempenho de ponta em benchmarks proeminentes como o AlpacaEval 2.0 ao aproveitar a colaboração de múltiplos LLMs durante a inferência. Apesar desses sucessos, uma avaliação da segurança e confiabilidade do MoA está ausente. Apresentamos o primeiro estudo abrangente da robustez do MoA contra agentes LLM enganosos que deliberadamente fornecem respostas enganosas. Examinamos fatores como a propagação de informações enganosas, o tamanho do modelo e a disponibilidade de informações, e descobrimos vulnerabilidades críticas. No AlpacaEval 2.0, o popular modelo LLaMA 3.1-70B alcança uma Taxa de Vitória Controlada por Comprimento (LC WR) de 49,2% quando acoplado a um MoA de 3 camadas (6 agentes LLM). No entanto, demonstramos que a introdução de apenas um único agente enganoso cuidadosamente instruído no MoA pode reduzir o desempenho para 37,9%, efetivamente anulando todos os ganhos do MoA. No QuALITY, uma tarefa de compreensão de múltipla escolha, o impacto também é severo, com a precisão caindo impressionantes 48,5%. Inspirados em parte pelo processo histórico de votação do Doge de Veneza, projetado para minimizar influência e engano, propomos uma série de mecanismos de defesa não supervisionados que recuperam a maior parte do desempenho perdido.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by leveraging the collaboration of multiple LLMs at inference time. Despite these successes, an evaluation of the safety and reliability of MoA is missing. We present the first comprehensive study of MoA's robustness against deceptive LLM agents that deliberately provide misleading responses. We examine factors like the propagation of deceptive information, model size, and information availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of 49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate that introducing only a single carefully-instructed deceptive agent into the MoA can reduce performance to 37.9%, effectively nullifying all MoA gains. On QuALITY, a multiple-choice comprehension task, the impact is also severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the historical Doge of Venice voting process, designed to minimize influence and deception, we propose a range of unsupervised defense mechanisms that recover most of the lost performance.

Summary

AI-Generated Summary

PDF72March 11, 2025