시각적 설득: 시각-언어 모델의 결정에 영향을 미치는 요인은 무엇인가?
Visual Persuasion: What Influences Decisions of Vision-Language Models?
February 17, 2026
저자: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI
초록
웹은 한때 인간의 소비를 위해 생성되었고 이제는 시각-언어 모델(VLMs)을 사용하는 에이전트에 의해 점점 더 해석되는 이미지로 가득 차 있습니다. 이러한 에이전트는 대규모로 시각적 결정을 내리며, 무엇을 클릭하고, 추천하고, 구매할지를 결정합니다. 그러나 우리는 그들의 시각적 선호도 구조에 대해 거의 알지 못합니다. 우리는 VLM을 통제된 이미지 기반 선택 과제에 배치하고 입력을 체계적으로 변동시켜 이를 연구하기 위한 프레임워크를 소개합니다. 우리의 핵심 아이디어는 에이전트의 결정 함수를 잠재적 시각적 효용으로 간주하여, 노출된 선호도(체계적으로 편집된 이미지 간의 선택)를 통해 추론할 수 있도록 하는 것입니다. 제품 사진과 같은 일반적인 이미지에서 출발하여, 우리는 텍스트 최적화 방법을 이미지 생성 모델을 사용하여 시각적으로 타당한 수정(예: 구도, 조명, 배경)을 반복적으로 제안하고 적용하도록 조정하는 시각적 프롬프트 최적화 방법을 제안합니다. 그런 다음 어떤 편집이 선택 확률을 증가시키는지 평가합니다. 최첨단 VLM에 대한 대규모 실험을 통해 최적화된 편집이 일대일 비교에서 선택 확률을 유의미하게 변화시킨다는 것을 입증합니다. 우리는 이러한 선호도를 설명하기 위해 자동 해석 가능성 파이프라인을 개발하여 선택을 주도하는 일관된 시각적 주제를 식별합니다. 우리는 이 접근 방식이 시각적 취약점과 안전 문제를 실제 환경에서 암묵적으로 발견될 수 있는 것보다 먼저 실용적이고 효율적으로 표면화하여, 이미지 기반 AI 에이전트에 대한 보다 선제적인 감사와 거버넌스를 지원한다고 주장합니다.
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.