MMPersuade: Um Conjunto de Dados e Estrutura de Avaliação para Persuasão Multimodal
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
Autores: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
Resumo
À medida que os Grandes Modelos de Visão e Linguagem (LVLMs) são cada vez mais implantados em domínios como compras, saúde e notícias, eles são expostos a conteúdos persuasivos pervasivos. Uma questão crítica é como esses modelos funcionam como persuadidos – como e por que podem ser influenciados por entradas multimodais persuasivas. Compreender tanto a sua suscetibilidade à persuasão quanto a eficácia de diferentes estratégias persuasivas é crucial, uma vez que modelos excessivamente persuadíveis podem adotar crenças enganosas, sobrepor-se às preferências do utilizador ou gerar resultados antiéticos ou inseguros quando expostos a mensagens manipulativas. Apresentamos o MMPersuade, uma estrutura unificada para estudar sistematicamente a dinâmica da persuasão multimodal em LVLMs. O MMPersuade contribui com (i) um conjunto de dados multimodal abrangente que emparelha imagens e vídeos com princípios de persuasão estabelecidos em contextos comerciais, subjetivos e comportamentais, e adversariais, e (ii) uma estrutura de avaliação que quantifica tanto a eficácia da persuasão quanto a suscetibilidade do modelo através de pontuação de concordância de terceiros e probabilidades de tokens autoestimadas em históricos de conversação. O nosso estudo de seis LVLMs líderes como persuadidos produz três conclusões principais: (i) entradas multimodais aumentam substancialmente a eficácia da persuasão – e a suscetibilidade do modelo – em comparação com apenas texto, especialmente em cenários de desinformação; (ii) preferências prévias declaradas diminuem a suscetibilidade, contudo a informação multimodal mantém a sua vantagem persuasiva; e (iii) diferentes estratégias variam em eficácia entre contextos, sendo a reciprocidade mais potente em contextos comerciais e subjetivos, e a credibilidade e a lógica prevalecendo em contextos adversariais. Ao analisar conjuntamente a eficácia da persuasão e a suscetibilidade, o MMPersuade fornece uma base fundamentada para desenvolver modelos que sejam robustos, consistentes com as preferências e alinhados eticamente ao interagir com conteúdos multimodais persuasivos.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.