ChatPaper.aiChatPaper

Визуальное убеждение: что влияет на принятие решений моделями «визуальный язык»?

Visual Persuasion: What Influences Decisions of Vision-Language Models?

February 17, 2026
Авторы: Manuel Cherep, Pranav M R, Pattie Maes, Nikhil Singh
cs.AI

Аннотация

Интернет переполнен изображениями, изначально созданными для восприятия человеком, но всё чаще интерпретируемыми агентами, использующими визуально-языковые модели (VLM). Эти агенты принимают визуальные решения в масштабе, определяя, на что кликнуть, что порекомендовать или купить. Однако мы мало знаем о структуре их визуальных предпочтений. Мы представляем фреймворк для изучения этого, помещая VLM в контролируемые задачи выбора на основе изображений и систематически изменяя их входные данные. Наша ключевая идея заключается в том, чтобы рассматривать функцию принятия решений агентом как скрытую визуальную полезность, которую можно вывести через выявленные предпочтения: выбор между систематически редактируемыми изображениями. Отправляясь от распространённых изображений, таких как фотографии товаров, мы предлагаем методы оптимизации визуальных промптов, адаптируя методы текстовой оптимизации для итеративного предложения и применения визуально правдоподобных модификаций с использованием модели генерации изображений (например, в композиции, освещении или фоне). Затем мы оцениваем, какие правки увеличивают вероятность выбора. В ходе масштабных экспериментов с передовыми VLM мы демонстрируем, что оптимизированные правки значительно смещают вероятности выбора в прямых сравнениях. Мы разрабатываем автоматизированный конвейер интерпретируемости, чтобы объяснить эти предпочтения, выявляя устойчивые визуальные темы, которые управляют выбором. Мы утверждаем, что такой подход предлагает практичный и эффективный способ выявления визуальных уязвимостей и проблем безопасности, которые в противном случае могли бы быть обнаружены неявно в реальных условиях, что способствует более проактивному аудиту и управлению AI-агентами, работающими с изображениями.
English
The web is littered with images, once created for human consumption and now increasingly interpreted by agents using vision-language models (VLMs). These agents make visual decisions at scale, deciding what to click, recommend, or buy. Yet, we know little about the structure of their visual preferences. We introduce a framework for studying this by placing VLMs in controlled image-based choice tasks and systematically perturbing their inputs. Our key idea is to treat the agent's decision function as a latent visual utility that can be inferred through revealed preference: choices between systematically edited images. Starting from common images, such as product photos, we propose methods for visual prompt optimization, adapting text optimization methods to iteratively propose and apply visually plausible modifications using an image generation model (such as in composition, lighting, or background). We then evaluate which edits increase selection probability. Through large-scale experiments on frontier VLMs, we demonstrate that optimized edits significantly shift choice probabilities in head-to-head comparisons. We develop an automatic interpretability pipeline to explain these preferences, identifying consistent visual themes that drive selection. We argue that this approach offers a practical and efficient way to surface visual vulnerabilities, safety concerns that might otherwise be discovered implicitly in the wild, supporting more proactive auditing and governance of image-based AI agents.
PDF31February 19, 2026