Persuasão Visual: O Que Influencia as Decisões dos Modelos de Visão e Linguagem?

Resumo

A web está repleta de imagens, originalmente criadas para consumo humano e agora cada vez mais interpretadas por agentes que utilizam modelos visão-linguagem (VLMs). Estes agentes tomam decisões visuais em escala, decidindo o que clicar, recomendar ou comprar. No entanto, sabemos pouco sobre a estrutura das suas preferências visuais. Introduzimos um quadro metodológico para estudar este fenómeno, colocando os VLMs em tarefas de escolha baseadas em imagens controladas e perturbando sistematicamente os seus inputs. A nossa ideia central é tratar a função de decisão do agente como uma utilidade visual latente que pode ser inferida através da preferência revelada: escolhas entre imagens editadas sistematicamente. Partindo de imagens comuns, como fotos de produtos, propomos métodos para otimização de *prompts* visuais, adaptando métodos de otimização de texto para propor e aplicar iterativamente modificações visualmente plausíveis usando um modelo de geração de imagens (por exemplo, na composição, iluminação ou fundo). Avaliamos depois quais as edições que aumentam a probabilidade de seleção. Através de experiências em larga escala com VLMs de última geração, demonstramos que edições otimizadas alteram significativamente as probabilidades de escolha em comparações diretas. Desenvolvemos um *pipeline* automático de interpretabilidade para explicar estas preferências, identificando temas visuais consistentes que impulsionam a seleção. Argumentamos que esta abordagem oferece uma forma prática e eficiente de detetar vulnerabilidades visuais e preocupações de segurança que, de outra forma, poderiam ser descobertas implicitamente em ambiente real, apoiando uma auditoria e governança mais proativas de agentes de IA baseados em imagem.

English

The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.

Persuasão Visual: O Que Influencia as Decisões dos Modelos de Visão e Linguagem?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Resumo

Support