G-FOCUS: Rumo a um Método Robustos para Avaliar a Persuasividade do Design de Interface do Usuário

Resumo

A avaliação da eficácia do design de interface do usuário (UI) vai além da estética para influenciar o comportamento do usuário, um princípio central à Persuasão do Design. O teste A/B é o método predominante para determinar quais variações de UI impulsionam um maior engajamento do usuário, mas é custoso e demorado. Embora os recentes Modelos de Visão e Linguagem (VLMs) possam processar análises automatizadas de UI, as abordagens atuais focam em atributos de design isolados em vez da persuasividade comparativa — o fator chave para otimizar as interações do usuário. Para abordar isso, introduzimos o WiserUI-Bench, um benchmark projetado para a tarefa de Avaliação de Persuasão de Design de UI em Pares, contendo 300 pares de imagens de UI do mundo real rotulados com resultados de testes A/B e justificativas de especialistas. Além disso, propomos o G-FOCUS, uma nova estratégia de raciocínio em tempo de inferência que aprimora a avaliação de persuasividade baseada em VLM, reduzindo o viés de posição e melhorando a precisão da avaliação. Resultados experimentais mostram que o G-FOCUS supera as estratégias de inferência existentes em consistência e precisão para avaliação de UI em pares. Ao promover a avaliação de persuasividade de UI impulsionada por VLM, nosso trabalho oferece uma abordagem para complementar os testes A/B, impulsionando o progresso na modelagem escalável de preferências de UI e na otimização de design. O código e os dados serão disponibilizados publicamente.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: Rumo a um Método Robustos para Avaliar a Persuasividade do Design de Interface do Usuário

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

Resumo

Support