ChatPaper.aiChatPaper

Visuelle Überzeugungskraft: Was beeinflusst die Entscheidungen von Vision-Sprache-Modellen?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

February 17, 2026
papers.authors: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI

papers.abstract

Das Internet ist übersät mit Bildern, die ursprünglich für die menschliche Betrachtung erstellt wurden und nun zunehmend von Agenten mithilfe von Vision-Language-Modellen (VLMs) interpretiert werden. Diese Agenten treffen visuelle Entscheidungen in großem Maßstab und bestimmen, was angeklickt, empfohlen oder gekauft wird. Dennoch wissen wir wenig über die Struktur ihrer visuellen Präferenzen. Wir stellen einen Rahmen vor, um dies zu untersuchen, indem wir VLMs in kontrollierte, bildbasierte Auswahlaufgaben versetzen und ihre Eingaben systematisch verändern. Unsere zentrale Idee ist es, die Entscheidungsfunktion des Agenten als eine latente visuelle Nutzenfunktion zu betrachten, die durch Revealed Preference erschlossen werden kann: durch Entscheidungen zwischen systematisch bearbeiteten Bildern. Ausgehend von gängigen Bildern, wie z.B. Produktfotos, schlagen wir Methoden zur visuellen Prompt-Optimierung vor, die Textoptimierungsmethoden adaptieren, um iterativ visuell plausible Änderungen (z.B. in Komposition, Beleuchtung oder Hintergrund) unter Verwendung eines Bildgenerierungsmodells vorzuschlagen und anzuwenden. Anschließend bewerten wir, welche Bearbeitungen die Auswahlwahrscheinlichkeit erhöhen. Durch groß angelegte Experimente mit modernsten VLMs zeigen wir, dass optimierte Bearbeitungen die Wahlwahrscheinlichkeiten in direkten Vergleichen signifikant verschieben. Wir entwickeln eine automatische Interpretierbarkeits-Pipeline, um diese Präferenzen zu erklären und konsistente visuelle Themen zu identifizieren, die die Auswahl antreiben. Wir argumentieren, dass dieser Ansatz einen praktischen und effizienten Weg bietet, um visuelle Schwachstellen und Sicherheitsbedenken aufzudecken, die ansonsten implizit "in the wild" entdeckt werden könnten. Dies unterstützt eine proaktivere Überprüfung und Steuerung von bildbasierten KI-Agenten.
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
PDF31February 19, 2026