MMPersuade: Un Dataset e un Framework di Valutazione per la Persuasione Multimodale
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
Autori: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
Abstract
Man mano che i Grandi Modelli Linguisticici e Visivi (LVLM) vengono sempre più impiegati in ambiti come lo shopping, la salute e le notizie, sono esposti a contenuti persuasivi pervasivi. Una questione cruciale è comprendere come questi modelli funzionino in qualità di persuasi – come e perché possano essere influenzati da input multimodali persuasivi. Comprenderne sia la suscettibilità alla persuasione sia l'efficacia delle diverse strategie persuasive è fondamentale, poiché modelli eccessivamente persuasibili potrebbero adottare convinzioni fuorvianti, sovrascrivere le preferenze dell'utente o generare output non etici o non sicuri quando esposti a messaggi manipolativi. Introduciamo MMPersuade, un framework unificato per studiare sistematicamente le dinamiche della persuasione multimodale negli LVLM. MMPersuade contribuisce con (i) un dataset multimodale completo che abbina immagini e video a principi di persuasione consolidati in contesti commerciali, soggettivi/comportamentali e adversariali, e (ii) un framework di valutazione che quantifica sia l'efficacia persuasiva sia la suscettibilità del modello attraverso punteggi di accordo di terze parti e probabilità lessicali auto-stimate sulle cronologie delle conversazioni. Il nostro studio su sei principali LVLM in qualità di persuasi fornisce tre intuizioni chiave: (i) gli input multimodali aumentano sostanzialmente l'efficacia persuasiva – e la suscettibilità del modello – rispetto al solo testo, specialmente in scenari di disinformazione; (ii) preferenze pregresse dichiarate riducono la suscettibilità, eppure le informazioni multimodali mantengono il loro vantaggio persuasivo; e (iii) strategie diverse variano in efficacia a seconda dei contesti, con la reciprocità più potente in contesti commerciali e soggettivi, e la credibilità e la logica predominanti in contesti adversariali. Analizzando congiuntamente l'efficacia persuasiva e la suscettibilità, MMPersuade fornisce una base fondata per sviluppare modelli che siano robusti, coerenti con le preferenze e allineati eticamente quando interagiscono con contenuti multimodali persuasivi.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.