Persuasione Visiva: Cosa Influenza le Decisioni dei Modelli Visione-Linguaggio?

Abstract

Il web è disseminato di immagini, create in origine per il consumo umano e ora sempre più interpretate da agenti che utilizzano modelli visione-linguaggio (VLM). Questi agenti prendono decisioni visive su larga scala, decidendo cosa cliccare, raccomandare o acquistare. Tuttavia, sappiamo poco della struttura delle loro preferenze visive. Introduciamo un framework per studiare questo fenomeno ponendo i VLM in compiti di scelta basati su immagini controllati e perturbando sistematicamente i loro input. La nostra idea chiave è trattare la funzione decisionale dell'agente come un'utilità visiva latente che può essere inferita attraverso la preferenza rivelata: scelte tra immagini modificate sistematicamente. Partendo da immagini comuni, come foto di prodotti, proponiamo metodi per l'ottimizzazione del prompt visivo, adattando i metodi di ottimizzazione del testo per proporre e applicare iterativamente modifiche visivamente plausibili utilizzando un modello di generazione di immagini (ad esempio nella composizione, nell'illuminazione o nello sfondo). Valutiamo quindi quali modifiche aumentano la probabilità di selezione. Attraverso esperimenti su larga scala condotti su VLM all'avanguardia, dimostriamo che modifiche ottimizzate alterano significativamente le probabilità di scelta in confronti testa a testa. Sviluppiamo una pipeline di interpretabilità automatica per spiegare queste preferenze, identificando temi visivi coerenti che guidano la selezione. Sosteniamo che questo approccio offra un modo pratico ed efficiente per far emergere vulnerabilità visive e problemi di sicurezza che altrimenti potrebbero essere scoperti implicitamente "in the wild", supportando audit e governance più proattivi per gli agenti di IA basati su immagini.

English

The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.

Persuasione Visiva: Cosa Influenza le Decisioni dei Modelli Visione-Linguaggio?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

Abstract

Support