G-FOCUS: Rumo a um Método Robustos para Avaliar a Persuasividade do Design de Interface do Usuário
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Autores: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Resumo
A avaliação da eficácia do design de interface do usuário (UI) vai além da estética para influenciar o comportamento do usuário, um princípio central à Persuasão do Design. O teste A/B é o método predominante para determinar quais variações de UI impulsionam um maior engajamento do usuário, mas é custoso e demorado. Embora os recentes Modelos de Visão e Linguagem (VLMs) possam processar análises automatizadas de UI, as abordagens atuais focam em atributos de design isolados em vez da persuasividade comparativa — o fator chave para otimizar as interações do usuário. Para abordar isso, introduzimos o WiserUI-Bench, um benchmark projetado para a tarefa de Avaliação de Persuasão de Design de UI em Pares, contendo 300 pares de imagens de UI do mundo real rotulados com resultados de testes A/B e justificativas de especialistas. Além disso, propomos o G-FOCUS, uma nova estratégia de raciocínio em tempo de inferência que aprimora a avaliação de persuasividade baseada em VLM, reduzindo o viés de posição e melhorando a precisão da avaliação. Resultados experimentais mostram que o G-FOCUS supera as estratégias de inferência existentes em consistência e precisão para avaliação de UI em pares. Ao promover a avaliação de persuasividade de UI impulsionada por VLM, nosso trabalho oferece uma abordagem para complementar os testes A/B, impulsionando o progresso na modelagem escalável de preferências de UI e na otimização de design. O código e os dados serão disponibilizados publicamente.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.