Persuasión Visual: ¿Qué Influencia las Decisiones de los Modelos de Visión y Lenguaje?
Visual Persuasion: What Influences Decisions of Vision-Language Models?
February 17, 2026
Autores: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI
Resumen
La web está plagada de imágenes, creadas originalmente para consumo humano y que ahora son interpretadas cada vez más por agentes que utilizan modelos de visión y lenguaje (VLMs). Estos agentes toman decisiones visuales a gran escala, decidiendo en qué hacer clic, qué recomendar o qué comprar. Sin embargo, sabemos poco sobre la estructura de sus preferencias visuales. Introducimos un marco para estudiar esto colocando a los VLMs en tareas de elección basadas en imágenes controladas y perturbando sistemáticamente sus entradas. Nuestra idea clave es tratar la función de decisión del agente como una utilidad visual latente que puede inferirse mediante la preferencia revelada: las elecciones entre imágenes editadas sistemáticamente. Partiendo de imágenes comunes, como fotos de productos, proponemos métodos para la optimización de prompts visuales, adaptando métodos de optimización de texto para proponer e aplicar iterativamente modificaciones visualmente plausibles utilizando un modelo de generación de imágenes (como en la composición, iluminación o fondo). Luego evaluamos qué ediciones aumentan la probabilidad de selección. Mediante experimentos a gran escala con VLMs de vanguardia, demostramos que las ediciones optimizadas alteran significativamente las probabilidades de elección en comparaciones cara a cara. Desarrollamos una canalización de interpretabilidad automática para explicar estas preferencias, identificando temas visuales consistentes que impulsan la selección. Sostenemos que este enfoque ofrece una forma práctica y eficiente de sacar a la luz vulnerabilidades visuales y problemas de seguridad que, de otro modo, podrían descubrirse implícitamente en entornos reales, apoyando una auditoría y gobernanza más proactivas de los agentes de IA basados en imágenes.
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.