MMPersuade: Een dataset en evaluatiekader voor multimodale overreding
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
Auteurs: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
Samenvatting
Naarmate Large Vision-Language Models (LVLM's) steeds vaker worden ingezet in domeinen zoals winkelen, gezondheid en nieuwsvoorziening, komen ze in aanraking met alomtegenwoordige persuasieve inhoud. Een kritische vraag is hoe deze modellen functioneren als persuadee – hoe en waarom ze kunnen worden beïnvloed door persuasieve multimodale input. Het begrijpen van zowel hun vatbaarheid voor persuasie als de effectiviteit van verschillende persuasieve strategieën is cruciaal, aangezien overdreven beïnvloedbare modellen misleidende overtuigingen kunnen aannemen, gebruikersvoorkeuren kunnen negeren of onethische of onveilige output kunnen genereren wanneer ze worden blootgesteld aan manipulerende boodschappen. Wij introduceren MMPersuade, een uniform kader voor het systematisch bestuderen van multimodale persuasiedynamiek in LVLM's. MMPersuade draagt bij met (i) een uitgebreide multimodale dataset die afbeeldingen en video's koppelt aan gevestigde persuasieprincipes in commerciële, subjectieve en gedragsmatige, en adversariële contexten, en (ii) een evaluatiekader dat zowel persuasie-effectiviteit als modelvatbaarheid kwantificeert via scoring van derde-partij-overeenstemming en zelf-geschatte tokenwaarschijnlijkheden op conversatiegeschiedenissen. Onze studie van zes toonaangevende LVLM's als persuadees levert drie belangrijke inzichten op: (i) multimodale input verhoogt de persuasie-effectiviteit – en modelvatbaarheid – aanzienlijk in vergelijking met alleen tekst, vooral in scenario's met desinformatie; (ii) uitgesproken eerdere voorkeuren verminderen de vatbaarheid, maar multimodale informatie behoudt haar persuasieve voordeel; en (iii) verschillende strategieën variëren in effectiviteit tussen contexten, waarbij wederkerigheid het krachtigst is in commerciële en subjectieve contexten, en geloofwaardigheid en logica de overhand hebben in adversariële contexten. Door persuasie-effectiviteit en -vatbaarheid gezamenlijk te analyseren, biedt MMPersuade een principieel fundament voor het ontwikkelen van modellen die robuust, voorkeursconsistent en ethisch afgestemd zijn bij interactie met persuasieve multimodale inhoud.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.