ChatPaper.aiChatPaper

MMPersuade : un ensemble de données et un cadre d'évaluation pour la persuasion multimodale

MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion

October 26, 2025
papers.authors: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI

papers.abstract

Alors que les Grands Modèles Vision-Langage (LVLM) sont de plus en plus déployés dans des domaines tels que le commerce, la santé et l'actualité, ils sont exposés à des contenus persuasifs omniprésents. Une question cruciale est de savoir comment ces modèles fonctionnent en tant que persuadés - comment et pourquoi ils peuvent être influencés par des entrées multimodales persuasives. Comprendre à la fois leur susceptibilité à la persuasion et l'efficacité des différentes stratégies persuasives est essentiel, car des modèles trop influençables pourraient adopter des croyances trompeuses, ignorer les préférences des utilisateurs ou générer des sorties contraires à l'éthique ou dangereuses lorsqu'ils sont exposés à des messages manipulateurs. Nous présentons MMPersuade, un cadre unifié pour étudier systématiquement la dynamique de la persuasion multimodale dans les LVLM. MMPersuade contribue par (i) un jeu de données multimodal complet qui associe des images et des vidéos à des principes de persuasion établis dans des contextes commerciaux, subjectifs et comportementaux, et adversariaux, et (ii) un cadre d'évaluation qui quantifie à la fois l'efficacité persuasive et la susceptibilité du modèle via un score d'accord par un tiers et des probabilités de tokens auto-estimées sur les historiques de conversation. Notre étude de six LVLM leaders en tant que persuadés révèle trois insights clés : (i) les entrées multimodales augmentent substantiellement l'efficacité persuasive - et la susceptibilité des modèles - par rapport au texte seul, en particulier dans les scénarios de désinformation ; (ii) des préférences préalablement déclarées réduisent la susceptibilité, mais l'information multimodale conserve son avantage persuasif ; et (iii) différentes stratégies varient en efficacité selon les contextes, la réciprocité étant la plus puissante dans les contextes commerciaux et subjectifs, tandis que la crédibilité et la logique prévalent dans les contextes adversariaux. En analysant conjointement l'efficacité persuasive et la susceptibilité, MMPersuade fournit une base principielle pour développer des modèles robustes, cohérents avec les préférences et alignés sur l'éthique lorsqu'ils interagissent avec des contenus multimodaux persuasifs.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains such as shopping, health, and news, they are exposed to pervasive persuasive content. A critical question is how these models function as persuadees-how and why they can be influenced by persuasive multimodal inputs. Understanding both their susceptibility to persuasion and the effectiveness of different persuasive strategies is crucial, as overly persuadable models may adopt misleading beliefs, override user preferences, or generate unethical or unsafe outputs when exposed to manipulative messages. We introduce MMPersuade, a unified framework for systematically studying multimodal persuasion dynamics in LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs images and videos with established persuasion principles across commercial, subjective and behavioral, and adversarial contexts, and (ii) an evaluation framework that quantifies both persuasion effectiveness and model susceptibility via third-party agreement scoring and self-estimated token probabilities on conversation histories. Our study of six leading LVLMs as persuadees yields three key insights: (i) multimodal inputs substantially increase persuasion effectiveness-and model susceptibility-compared to text alone, especially in misinformation scenarios; (ii) stated prior preferences decrease susceptibility, yet multimodal information maintains its persuasive advantage; and (iii) different strategies vary in effectiveness across contexts, with reciprocity being most potent in commercial and subjective contexts, and credibility and logic prevailing in adversarial contexts. By jointly analyzing persuasion effectiveness and susceptibility, MMPersuade provides a principled foundation for developing models that are robust, preference-consistent, and ethically aligned when engaging with persuasive multimodal content.
PDF71December 1, 2025