G-FOCUS: Hacia un método robusto para evaluar la persuasión en el diseño de interfaces de usuario

Resumen

Evaluar la efectividad del diseño de la interfaz de usuario (UI) va más allá de la estética para influir en el comportamiento del usuario, un principio central en la Persuasión del Diseño. Las pruebas A/B son el método predominante para determinar qué variaciones de UI generan un mayor compromiso del usuario, pero son costosas y consumen mucho tiempo. Aunque los modelos de Visión-Lenguaje (VLMs) recientes pueden procesar análisis automatizados de UI, los enfoques actuales se centran en atributos de diseño aislados en lugar de la persuasividad comparativa, el factor clave para optimizar las interacciones del usuario. Para abordar esto, presentamos WiserUI-Bench, un punto de referencia diseñado para la tarea de Evaluación de Persuasión de Diseño de UI por Pares, que incluye 300 pares de imágenes de UI del mundo real etiquetados con resultados de pruebas A/B y razonamientos de expertos. Además, proponemos G-FOCUS, una novedosa estrategia de razonamiento en tiempo de inferencia que mejora la evaluación de persuasividad basada en VLM al reducir el sesgo de posición y mejorar la precisión de la evaluación. Los resultados experimentales muestran que G-FOCUS supera a las estrategias de inferencia existentes en consistencia y precisión para la evaluación de UI por pares. Al promover la evaluación de la persuasividad de UI impulsada por VLM, nuestro trabajo ofrece un enfoque para complementar las pruebas A/B, impulsando el progreso en el modelado escalable de preferencias de UI y la optimización del diseño. El código y los datos se publicarán públicamente.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: Hacia un método robusto para evaluar la persuasión en el diseño de interfaces de usuario

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

Resumen

Support