G-FOCUS: На пути к надежному методу оценки убедительности дизайна пользовательского интерфейса
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Авторы: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Аннотация
Оценка эффективности дизайна пользовательского интерфейса (UI) выходит за рамки эстетики и включает влияние на поведение пользователей, что является ключевым принципом концепции Убедительного Дизайна. A/B-тестирование остается основным методом для определения вариантов UI, которые повышают вовлеченность пользователей, однако этот подход требует значительных затрат времени и ресурсов. Хотя современные Vision-Language Models (VLMs) способны автоматически анализировать UI, существующие подходы сосредоточены на изолированных атрибутах дизайна, а не на сравнительной убедительности — ключевом факторе оптимизации взаимодействия с пользователем. Для решения этой проблемы мы представляем WiserUI-Bench, эталонный набор данных для задачи Сравнительной Оценки Убедительности Дизайна UI, включающий 300 пар изображений реальных интерфейсов с результатами A/B-тестов и экспертными обоснованиями. Кроме того, мы предлагаем G-FOCUS, новую стратегию логического вывода, которая улучшает оценку убедительности на основе VLMs, снижая позиционное смещение и повышая точность оценки. Экспериментальные результаты показывают, что G-FOCUS превосходит существующие стратегии вывода по согласованности и точности в сравнительной оценке UI. Наша работа способствует развитию VLM-ориентированной оценки убедительности UI, предлагая подход, дополняющий A/B-тестирование, и стимулирует прогресс в масштабируемом моделировании предпочтений пользователей и оптимизации дизайна. Код и данные будут опубликованы в открытом доступе.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.Summary
AI-Generated Summary