ChatPaper.aiChatPaper

MMPersuade: 멀티모달 설득을 위한 데이터셋 및 평가 프레임워크

MMPersuade: A Dataset and Evaluation Framework for Multimodal Persuasion

October 26, 2025
저자: Haoyi Qiu, Yilun Zhou, Pranav Narayanan Venkit, Kung-Hsiang Huang, Jiaxin Zhang, Nanyun Peng, Chien-Sheng Wu
cs.AI

초록

대규모 시각-언어 모델(LVLM)이 쇼핑, 건강, 뉴스와 같은 분야에 점점 더 많이 배포됨에 따라, 이들은 만연한 설득적 콘텐츠에 노출되고 있습니다. 중요한 질문은 이러한 모델이 피설득자로서 어떻게 기능하는지, 즉 설득적인 멀티모달 입력에 의해 어떻게 그리고 왜 영향을 받을 수 있는지입니다. 지나치게 설득되기 쉬운 모델은 조작적인 메시지에 노출될 때 오해의 소지가 있는 신념을 채택하거나, 사용자 선호도를 무시하거나, 비윤리적이거나 안전하지 않은 출력을 생성할 수 있으므로, 이들의 설득에 대한 민감성과 다양한 설득 전략의 효과성을 이해하는 것이 중요합니다. 우리는 LVLM의 멀티모달 설득 역학을 체계적으로 연구하기 위한 통합 프레임워크인 MMPersuade를 소개합니다. MMPersuade는 (i) 상업적, 주관적 및 행동적, 적대적 맥락에 걸쳐 확립된 설득 원칙과 이미지 및 비디오를 짝지은 포괄적인 멀티모달 데이터셋과 (ii) 제3자 일치도 점수화 및 대화 기록에 대한 자체 추정 토큰 확률을 통해 설득 효과성과 모델 민감성을 모두 정량화하는 평가 프레임워크를 제공합니다. 피설득자로서의 6개의 주요 LVLM에 대한 우리의 연구는 세 가지 주요 통찰을 제공합니다: (i) 멀티모달 입력은 특히 오정보 시나리오에서 텍스트만 사용하는 경우에 비해 설득 효과성(및 모델 민감성)을 상당히 증가시킵니다; (ii) 명시된 사전 선호도는 민감성을 감소시키지만, 멀티모달 정보는 여전히 설득적 이점을 유지합니다; (iii) 서로 다른 전략은 맥락에 따라 효과성이 다르며, 상호성은 상업 및 주관적 맥락에서 가장 강력하고, 신뢰성과 논리는 적대적 맥락에서 우세합니다. 설득 효과성과 민감도를 함께 분석함으로써, MMPersuade는 설득적인 멀티모달 콘텐츠와 상호작용할 때 강건하고, 선호도에 일관되며, 윤리적으로 조정된 모델을 개발하기 위한 원칙적인 기초를 제공합니다.
English
As Large Vision-Language Models (LVLMs) are increasingly deployed in domains such as shopping, health, and news, they are exposed to pervasive persuasive content. A critical question is how these models function as persuadees-how and why they can be influenced by persuasive multimodal inputs. Understanding both their susceptibility to persuasion and the effectiveness of different persuasive strategies is crucial, as overly persuadable models may adopt misleading beliefs, override user preferences, or generate unethical or unsafe outputs when exposed to manipulative messages. We introduce MMPersuade, a unified framework for systematically studying multimodal persuasion dynamics in LVLMs. MMPersuade contributes (i) a comprehensive multimodal dataset that pairs images and videos with established persuasion principles across commercial, subjective and behavioral, and adversarial contexts, and (ii) an evaluation framework that quantifies both persuasion effectiveness and model susceptibility via third-party agreement scoring and self-estimated token probabilities on conversation histories. Our study of six leading LVLMs as persuadees yields three key insights: (i) multimodal inputs substantially increase persuasion effectiveness-and model susceptibility-compared to text alone, especially in misinformation scenarios; (ii) stated prior preferences decrease susceptibility, yet multimodal information maintains its persuasive advantage; and (iii) different strategies vary in effectiveness across contexts, with reciprocity being most potent in commercial and subjective contexts, and credibility and logic prevailing in adversarial contexts. By jointly analyzing persuasion effectiveness and susceptibility, MMPersuade provides a principled foundation for developing models that are robust, preference-consistent, and ethically aligned when engaging with persuasive multimodal content.
PDF71December 1, 2025