Visuele Overtuiging: Wat Beïnvloedt de Beslissingen van Vision-Language Modellen?

Samenvatting

Het web is bezaaid met afbeeldingen die ooit zijn gemaakt voor menselijke consumptie en die nu in toenemende mate worden geïnterpreteerd door agents die vision-language models (VLMs) gebruiken. Deze agents nemen visuele beslissingen op grote schaal, waarbij ze bepalen wat ze moeten aanklikken, aanbevelen of kopen. Toch weten we weinig over de structuur van hun visuele voorkeuren. Wij introduceren een raamwerk om dit te bestuderen door VLMs gecontroleerde, op afbeeldingen gebaseerde keuzetaken te geven en hun invoer systematisch te verstoren. Onze kernidee is om de beslissingsfunctie van de agent te behandelen als een latente visuele nutsfunctie die kan worden afgeleid door middel van gebleken voorkeur: keuzes tussen systematisch bewerkte afbeeldingen. Uitgaande van veelvoorkomende afbeeldingen, zoals productfoto's, stellen we methoden voor voor visuele promptoptimalisatie, waarbij we tekstoptimalisatiemethoden aanpassen om iteratief visueel plausibele aanpassingen voor te stellen en toe te passen met behulp van een beeldgeneratiemodel (zoals in compositie, belichting of achtergrond). Vervolgens evalueren we welke bewerkingen de selectiekans vergroten. Door grootschalige experimenten met geavanceerde VLMs tonen we aan dat geoptimaliseerde bewerkingen de keuzekansen significant veranderen in directe vergelijkingen. We ontwikkelen een automatische interpreteerbaarheidspipeline om deze voorkeuren te verklaren en identificeren consistente visuele thema's die de selectie sturen. Wij beargumenteren dat deze aanpak een praktische en efficiënte manier biedt om visuele kwetsbaarheden en veiligheidsproblemen aan het licht te brengen, die anders impliciet in de praktijk ontdekt zouden worden, en zo een proactievere auditing en governance van op afbeeldingen gebaseerde AI-agents ondersteunt.

English

The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.

Visuele Overtuiging: Wat Beïnvloedt de Beslissingen van Vision-Language Modellen?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Samenvatting

Support