MMPersuade : un ensemble de données et un cadre d'évaluation pour la persuasion multimodale
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
papers.authors: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
papers.abstract
Alors que les Grands Modèles Vision-Langage (LVLM) sont de plus en plus déployés dans des domaines tels que le commerce, la santé et l'actualité, ils sont exposés à des contenus persuasifs omniprésents. Une question cruciale est de savoir comment ces modèles fonctionnent en tant que persuadés - comment et pourquoi ils peuvent être influencés par des entrées multimodales persuasives. Comprendre à la fois leur susceptibilité à la persuasion et l'efficacité des différentes stratégies persuasives est essentiel, car des modèles trop influençables pourraient adopter des croyances trompeuses, ignorer les préférences des utilisateurs ou générer des sorties contraires à l'éthique ou dangereuses lorsqu'ils sont exposés à des messages manipulateurs. Nous présentons MMPersuade, un cadre unifié pour étudier systématiquement la dynamique de la persuasion multimodale dans les LVLM. MMPersuade contribue par (i) un jeu de données multimodal complet qui associe des images et des vidéos à des principes de persuasion établis dans des contextes commerciaux, subjectifs et comportementaux, et adversariaux, et (ii) un cadre d'évaluation qui quantifie à la fois l'efficacité persuasive et la susceptibilité du modèle via un score d'accord par un tiers et des probabilités de tokens auto-estimées sur les historiques de conversation. Notre étude de six LVLM leaders en tant que persuadés révèle trois insights clés : (i) les entrées multimodales augmentent substantiellement l'efficacité persuasive - et la susceptibilité des modèles - par rapport au texte seul, en particulier dans les scénarios de désinformation ; (ii) des préférences préalablement déclarées réduisent la susceptibilité, mais l'information multimodale conserve son avantage persuasif ; et (iii) différentes stratégies varient en efficacité selon les contextes, la réciprocité étant la plus puissante dans les contextes commerciaux et subjectifs, tandis que la crédibilité et la logique prévalent dans les contextes adversariaux. En analysant conjointement l'efficacité persuasive et la susceptibilité, MMPersuade fournit une base principielle pour développer des modèles robustes, cohérents avec les préférences et alignés sur l'éthique lorsqu'ils interagissent avec des contenus multimodaux persuasifs.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.