ChatPaper.aiChatPaper

Persuasion visuelle : quels facteurs influencent les décisions des modèles vision-langage ?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

February 17, 2026
papers.authors: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI

papers.abstract

Le web est jonché d'images, créées à l'origine pour une consommation humaine et désormais de plus en plus interprétées par des agents utilisant des modèles vision-langage (VLM). Ces agents prennent des décisions visuelles à grande échelle, décidant quoi cliquer, recommander ou acheter. Pourtant, nous connaissons peu la structure de leurs préférences visuelles. Nous présentons un cadre pour étudier ce phénomène en plaçant les VLM dans des tâches de choix basées sur des images contrôlées et en perturbant systématiquement leurs entrées. Notre idée clé est de traiter la fonction de décision de l'agent comme une utilité visuelle latente qui peut être inférée par les préférences révélées : des choix entre des images modifiées de manière systématique. En partant d'images courantes, comme des photos de produits, nous proposons des méthodes pour l'optimisation de l'invite visuelle, adaptant les méthodes d'optimisation textuelle pour proposer et appliquer itérativement des modifications visuellement plausibles à l'aide d'un modèle de génération d'images (par exemple, la composition, l'éclairage ou l'arrière-plan). Nous évaluons ensuite quelles modifications augmentent la probabilité de sélection. Grâce à des expériences à grande échelle sur des VLM de pointe, nous démontrons que des modifications optimisées modifient significativement les probabilités de choix dans des comparaisons directes. Nous développons un pipeline d'interprétabilité automatique pour expliquer ces préférences, en identifiant des thèmes visuels cohérents qui motivent la sélection. Nous soutenons que cette approche offre un moyen pratique et efficace de révéler des vulnérabilités visuelles, des problèmes de sécurité qui pourraient autrement être découverts implicitement dans des conditions réelles, soutenant ainsi un audit et une gouvernance plus proactifs des agents IA basés sur l'image.
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
PDF31February 19, 2026