MMPersuade: Un Conjunto de Datos y Marco de Evaluación para la Persuasión Multimodal
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
Autores: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
Resumen
A medida que los Grandes Modelos de Visión y Lenguaje (LVLM, por sus siglas en inglés) se despliegan cada vez más en dominios como el comercio, la salud y las noticias, están expuestos a contenido persuasivo generalizado. Una cuestión crítica es cómo funcionan estos modelos como persuadidos: cómo y por qué pueden ser influenciados por entradas multimodales persuasivas. Comprender tanto su susceptibilidad a la persuasión como la efectividad de las diferentes estrategias persuasivas es crucial, ya que los modelos excesivamente persuadibles pueden adoptar creencias engañosas, anular las preferencias del usuario o generar resultados poco éticos o inseguros cuando están expuestos a mensajes manipulativos. Presentamos MMPersuade, un marco unificado para estudiar sistemáticamente la dinámica de la persuasión multimodal en los LVLM. MMPersuade contribuye con (i) un conjunto de datos multimodal exhaustivo que empareja imágenes y videos con principios de persuasión establecidos en contextos comerciales, subjetivos y conductuales, y adversarios; y (ii) un marco de evaluación que cuantifica tanto la efectividad de la persuasión como la susceptibilidad del modelo mediante puntuaciones de acuerdo de terceros y probabilidades de tokens autoestimadas en historiales de conversación. Nuestro estudio de seis LVLM líderes como persuadidos arroja tres conclusiones clave: (i) las entradas multimodales aumentan sustancialmente la efectividad de la persuasión —y la susceptibilidad del modelo— en comparación con solo texto, especialmente en escenarios de desinformación; (ii) las preferencias previas declaradas disminuyen la susceptibilidad, pero la información multimodal mantiene su ventaja persuasiva; y (iii) diferentes estrategias varían en efectividad según el contexto, siendo la reciprocidad la más potente en contextos comerciales y subjetivos, y la credibilidad y la lógica las que prevalecen en contextos adversarios. Al analizar conjuntamente la efectividad de la persuasión y la susceptibilidad, MMPersuade proporciona una base fundamentada para desarrollar modelos que sean robustos, consistentes con las preferencias y alineados éticamente al interactuar con contenido persuasivo multimodal.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.