MMPersuade: Ein Datensatz und Bewertungsrahmen für multimodale Überzeugung
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
papers.authors: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
papers.abstract
Da große visuell-sprachliche Modelle (LVLMs) zunehmend in Bereichen wie Einkaufen, Gesundheit und Nachrichten eingesetzt werden, sind sie allgegenwärtigen persuasiven Inhalten ausgesetzt. Eine entscheidende Frage ist, wie diese Modelle als Persuadierte funktionieren – wie und warum sie durch persuasive multimodale Eingaben beeinflusst werden können. Das Verständnis sowohl ihrer Anfälligkeit für Persuasion als auch der Wirksamkeit verschiedener persuasiver Strategien ist von entscheidender Bedeutung, da übermäßig beeinflussbare Modelle irreführende Überzeugungen annehmen, Nutzerpräferenzen ignorieren oder unethische bzw. unsichere Outputs generieren können, wenn sie manipulativen Botschaften ausgesetzt sind. Wir stellen MMPersuade vor, einen einheitlichen Rahmen zur systematischen Erforschung multimodaler Persuasion dynamiken in LVLMs. MMPersuade leistet folgende Beiträge: (i) einen umfassenden multimodalen Datensatz, der Bilder und Videos mit etablierten Persuasion sprinzipien in kommerziellen, subjektiv-behavioralen und adversativen Kontexten kombiniert, und (ii) ein Evaluierungs framework, das sowohl die Persuasion swirksamkeit als auch die Modellanfälligkeit über Drittparteien-Zustimmungswerte und selbstgeschätzte Token-Wahrscheinlichkeiten in Konversationsverläufen quantifiziert. Unsere Untersuchung von sechs führenden LVLMs als Persuadierte ergibt drei zentrale Erkenntnisse: (i) multimodale Eingaben steigern die Persuasion swirksamkeit – und Modellanfälligkeit – im Vergleich zu reinem Text erheblich, insbesondere in Desinformations szenarien; (ii) zuvor geäußerte Präferenzen verringern die Anfälligkeit, doch behalten multimodale Informationen ihren persuasiven Vorteil; und (iii) verschiedene Strategien variieren in ihrer Wirksamkeit je nach Kontext, wobei Reziprozität in kommerziellen und subjektiven Kontexten am wirksamsten ist und Glaubwürdigkeit sowie Logik in adversativen Kontexten dominieren. Durch die gemeinsame Analyse von Persuasion swirksamkeit und -anfälligkeit bietet MMPersuade eine prinzipienbasierte Grundlage für die Entwicklung robuster, präferenzkonformer und ethisch ausgerichteter Modelle im Umgang mit persuasiven multimodalen Inhalten.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.