MMPersuade: マルチモーダル説得のためのデータセットと評価フレームワーク
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
著者: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
要旨
大規模視覚言語モデル(LVLM)がショッピング、医療、ニュースなどの分野で展開されるにつれ、これらのモデルは広範な説得的コンテンツに晒されるようになっている。重要な課題は、これらのモデルが説得対象(persuadee)としてどのように機能するか、つまり説得的なマルチモーダル入力によってどのように、そしてなぜ影響を受けるのかである。過度に説得されやすいモデルは、操作的なメッセージに晒された際に誤った信念を採用したり、ユーザーの選好を無視したり、非倫理的あるいは安全でない出力を生成したりする可能性があるため、その説得への感受性と様々な説得手法の効果の両方を理解することが極めて重要である。我々は、LVLMにおけるマルチモーダル説得の力学を体系的に研究するための統一フレームワークであるMMPersuadeを提案する。MMPersuadeは、(i)商業的、主観的・行動的、敵対的という文脈において、画像と動画を確立された説得原理と組み合わせた包括的なマルチモーダルデータセット、および(ii)第三者による合意スコアリングと会話履歴に対する自己推定トークン確率を通じて、説得の効果とモデルの感受性の両方を定量化する評価フレームワークを提供する。6つの主要なLVLMを説得対象として調査した結果、以下の3つの重要な知見が得られた:(i)マルチモーダル入力は、テキストのみの場合と比較して、特に誤情報シナリオにおいて、説得の効果(およびモデルの感受性)を大幅に増加させる;(ii)事前に表明された選好は感受性を低下させるが、マルチモーダル情報はその説得的優位性を維持する;(iii)異なる説得手法の効果は文脈によって異なり、返報性は商業的および主観的文脈で最も強力であり、信頼性と論理性は敵対的文脈で優勢である。説得の効果と感受性を統合的に分析することにより、MMPersuadeは、説得的なマルチモーダルコンテンツと対峙する際に、頑健性、選好一貫性、倫理的整合性を備えたモデルを開発するための原理に基づいた基盤を提供する。
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.