ChatPaper.aiChatPaper

Este es tu Doge, si te place: Explorando el engaño y la robustez en mezclas de modelos de lenguaje grandes

This Is Your Doge, If It Please You: Exploring Deception and Robustness in Mixture of LLMs

March 7, 2025
Autores: Lorenz Wolf, Sangwoong Yoon, Ilija Bogunovic
cs.AI

Resumen

Las arquitecturas de Mezcla de Agentes de Modelos de Lenguaje Grande (MoA, por sus siglas en inglés) logran un rendimiento de vanguardia en benchmarks destacados como AlpacaEval 2.0 al aprovechar la colaboración de múltiples modelos de lenguaje grande (LLMs) durante la inferencia. A pesar de estos éxitos, falta una evaluación de la seguridad y confiabilidad de MoA. Presentamos el primer estudio exhaustivo de la robustez de MoA frente a agentes LLM engañosos que proporcionan respuestas deliberadamente erróneas. Examinamos factores como la propagación de información engañosa, el tamaño del modelo y la disponibilidad de información, y descubrimos vulnerabilidades críticas. En AlpacaEval 2.0, el popular modelo LLaMA 3.1-70B alcanza una Tasa de Victoria Controlada por Longitud (LC WR) del 49.2% cuando se combina con MoA de 3 capas (6 agentes LLM). Sin embargo, demostramos que la introducción de un solo agente engañoso cuidadosamente instruido en MoA puede reducir el rendimiento al 37.9%, anulando efectivamente todas las ganancias de MoA. En QuALITY, una tarea de comprensión de opción múltiple, el impacto también es severo, con una precisión que cae en un asombroso 48.5%. Inspirados en parte por el histórico proceso de votación del Dogo de Venecia, diseñado para minimizar la influencia y el engaño, proponemos una serie de mecanismos de defensa no supervisados que recuperan la mayor parte del rendimiento perdido.
English
Mixture of large language model (LLMs) Agents (MoA) architectures achieve state-of-the-art performance on prominent benchmarks like AlpacaEval 2.0 by leveraging the collaboration of multiple LLMs at inference time. Despite these successes, an evaluation of the safety and reliability of MoA is missing. We present the first comprehensive study of MoA's robustness against deceptive LLM agents that deliberately provide misleading responses. We examine factors like the propagation of deceptive information, model size, and information availability, and uncover critical vulnerabilities. On AlpacaEval 2.0, the popular LLaMA 3.1-70B model achieves a length-controlled Win Rate (LC WR) of 49.2% when coupled with 3-layer MoA (6 LLM agents). However, we demonstrate that introducing only a single carefully-instructed deceptive agent into the MoA can reduce performance to 37.9%, effectively nullifying all MoA gains. On QuALITY, a multiple-choice comprehension task, the impact is also severe, with accuracy plummeting by a staggering 48.5%. Inspired in part by the historical Doge of Venice voting process, designed to minimize influence and deception, we propose a range of unsupervised defense mechanisms that recover most of the lost performance.

Summary

AI-Generated Summary

PDF72March 11, 2025