MMPersuade: Набор данных и система оценки для мультимодального убеждения
MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion
October 26, 2025
Авторы: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI
Аннотация
По мере того как крупные мультимодальные языковые модели (LVLM) все шире применяются в таких областях, как шопинг, здравоохранение и новости, они сталкиваются с повсеместным распространением убеждающего контента. Ключевой вопрос заключается в том, как эти модели функционируют в роли объектов убеждения — каким образом и почему они могут подвергаться влиянию убеждающих мультимодальных стимулов. Понимание как их восприимчивости к убеждению, так и эффективности различных убеждающих стратегий крайне важно, поскольку чрезмерно податливые модели могут усваивать вводящие в заблуждение убеждения, игнорировать предпочтения пользователей или генерировать неэтичные или небезопасные результаты при столкновении с манипулятивными сообщениями. Мы представляем MMPersuade — унифицированную структуру для систематического изучения динамики мультимодального убеждения в LVLM. Вклад MMPersuade включает: (i) комплексный мультимодальный набор данных, который объединяет изображения и видео с установленными принципами убеждения в коммерческих, субъективно-поведенческих и состязательных контекстах; и (ii) оценочную структуру, которая количественно определяет как эффективность убеждения, так и восприимчивость модели с помощью оценки согласия третьей стороны и самооценочных вероятностей токенов на истории диалогов. Наше исследование шести ведущих LVLM в качестве объектов убеждения выявило три ключевых вывода: (i) мультимодальные стимулы существенно повышают эффективность убеждения — и восприимчивость моделей — по сравнению с одним только текстом, особенно в сценариях дезинформации; (ii) заявленные предварительные предпочтения снижают восприимчивость, однако мультимодальная информация сохраняет свое убеждающее преимущество; и (iii) различные стратегии различаются по эффективности в разных контекстах: взаимность оказывается наиболее действенной в коммерческих и субъективных контекстах, а достоверность и логика преобладают в состязательных контекстах. Совместно анализируя эффективность убеждения и восприимчивость, MMPersuade закладывает принципиальную основу для разработки моделей, которые являются устойчивыми, согласованными с предпочтениями и этически выверенными при взаимодействии с убеждающим мультимодальным контентом.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains
such as shopping, health, and news, they are exposed to pervasive persuasive
content. A critical question is how these models function as persuadees-how and
why they can be influenced by persuasive multimodal inputs. Understanding both
their susceptibility to persuasion and the effectiveness of different
persuasive strategies is crucial, as overly persuadable models may adopt
misleading beliefs, override user preferences, or generate unethical or unsafe
outputs when exposed to manipulative messages. We introduce MMPersuade, a
unified framework for systematically studying multimodal persuasion dynamics in
LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs
images and videos with established persuasion principles across commercial,
subjective and behavioral, and adversarial contexts, and (ii) an evaluation
framework that quantifies both persuasion effectiveness and model
susceptibility via third-party agreement scoring and self-estimated token
probabilities on conversation histories. Our study of six leading LVLMs as
persuadees yields three key insights: (i) multimodal inputs substantially
increase persuasion effectiveness-and model susceptibility-compared to text
alone, especially in misinformation scenarios; (ii) stated prior preferences
decrease susceptibility, yet multimodal information maintains its persuasive
advantage; and (iii) different strategies vary in effectiveness across
contexts, with reciprocity being most potent in commercial and subjective
contexts, and credibility and logic prevailing in adversarial contexts. By
jointly analyzing persuasion effectiveness and susceptibility, MMPersuade
provides a principled foundation for developing models that are robust,
preference-consistent, and ethically aligned when engaging with persuasive
multimodal content.