G-FOCUS: На пути к надежному методу оценки убедительности дизайна пользовательского интерфейса

Аннотация

Оценка эффективности дизайна пользовательского интерфейса (UI) выходит за рамки эстетики и включает влияние на поведение пользователей, что является ключевым принципом концепции Убедительного Дизайна. A/B-тестирование остается основным методом для определения вариантов UI, которые повышают вовлеченность пользователей, однако этот подход требует значительных затрат времени и ресурсов. Хотя современные Vision-Language Models (VLMs) способны автоматически анализировать UI, существующие подходы сосредоточены на изолированных атрибутах дизайна, а не на сравнительной убедительности — ключевом факторе оптимизации взаимодействия с пользователем. Для решения этой проблемы мы представляем WiserUI-Bench, эталонный набор данных для задачи Сравнительной Оценки Убедительности Дизайна UI, включающий 300 пар изображений реальных интерфейсов с результатами A/B-тестов и экспертными обоснованиями. Кроме того, мы предлагаем G-FOCUS, новую стратегию логического вывода, которая улучшает оценку убедительности на основе VLMs, снижая позиционное смещение и повышая точность оценки. Экспериментальные результаты показывают, что G-FOCUS превосходит существующие стратегии вывода по согласованности и точности в сравнительной оценке UI. Наша работа способствует развитию VLM-ориентированной оценки убедительности UI, предлагая подход, дополняющий A/B-тестирование, и стимулирует прогресс в масштабируемом моделировании предпочтений пользователей и оптимизации дизайна. Код и данные будут опубликованы в открытом доступе.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: На пути к надежному методу оценки убедительности дизайна пользовательского интерфейса

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

Аннотация

Support