G-FOCUS: Hacia un método robusto para evaluar la persuasión en el diseño de interfaces de usuario
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Autores: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Resumen
Evaluar la efectividad del diseño de la interfaz de usuario (UI) va más allá de la estética para influir en el comportamiento del usuario, un principio central en la Persuasión del Diseño. Las pruebas A/B son el método predominante para determinar qué variaciones de UI generan un mayor compromiso del usuario, pero son costosas y consumen mucho tiempo. Aunque los modelos de Visión-Lenguaje (VLMs) recientes pueden procesar análisis automatizados de UI, los enfoques actuales se centran en atributos de diseño aislados en lugar de la persuasividad comparativa, el factor clave para optimizar las interacciones del usuario. Para abordar esto, presentamos WiserUI-Bench, un punto de referencia diseñado para la tarea de Evaluación de Persuasión de Diseño de UI por Pares, que incluye 300 pares de imágenes de UI del mundo real etiquetados con resultados de pruebas A/B y razonamientos de expertos. Además, proponemos G-FOCUS, una novedosa estrategia de razonamiento en tiempo de inferencia que mejora la evaluación de persuasividad basada en VLM al reducir el sesgo de posición y mejorar la precisión de la evaluación. Los resultados experimentales muestran que G-FOCUS supera a las estrategias de inferencia existentes en consistencia y precisión para la evaluación de UI por pares. Al promover la evaluación de la persuasividad de UI impulsada por VLM, nuestro trabajo ofrece un enfoque para complementar las pruebas A/B, impulsando el progreso en el modelado escalable de preferencias de UI y la optimización del diseño. El código y los datos se publicarán públicamente.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.Summary
AI-Generated Summary