ChatPaper.aiChatPaper

視覚的説得:視覚言語モデルの意思決定に影響を与える要因とは?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

February 17, 2026
著者: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI

要旨

ウェブ上には、かつて人間の消費のために作成された画像が散在しており、現在では視覚言語モデル(VLM)を用いたエージェントによる解釈が急速に進んでいる。これらのエージェントは大規模に視覚的判断を行い、何をクリックし、推薦し、購入するかを決定する。しかし、その視覚的選好の構造についてはほとんど理解されていない。本研究では、VLMを制御された画像選択課題に配置し、入力に対して体系的に摂動を加えることでこれを研究する枠組みを提案する。核心となる考え方は、エージェントの決定関数を、顕示選好(体系的に編集された画像間の選択)を通じて推論可能な潜在的な視覚的効用として扱うことである。商品写真などの一般的な画像を出発点とし、視覚的プロンプト最適化の手法を提案する。これは、テキスト最適化手法を応用し、画像生成モデルを用いて(構図、照明、背景などの)視覚的に妥当な修正を反復的に提案・適用するものである。その後、どの編集が選択確率を高めるかを評価する。先進的なVLMを用いた大規模実験を通じて、最適化された編集が一対比較において選択確率を有意にシフトさせることを実証する。さらに、これらの選好を説明するための自動解釈可能性パイプラインを構築し、選択を駆動する一貫した視覚的テーマを特定する。このアプローチが、視覚的脆弱性や安全性への懸念(そうでなければ実環境で暗黙的に発見される可能性のあるもの)を表面化させる実用的かつ効率的な方法を提供し、画像ベースのAIエージェントに対するより積極的な監査とガバナンスを支援するものであると論じる。
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
PDF31February 19, 2026