G-FOCUS : Vers une méthode robuste pour évaluer la persuasivité des conceptions d'interface utilisateur
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Auteurs: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Résumé
L'évaluation de l'efficacité de la conception d'interfaces utilisateur (UI) va au-delà de l'esthétique pour influencer le comportement des utilisateurs, un principe central à la Persuasivité du Design. Les tests A/B constituent la méthode prédominante pour déterminer quelles variations d'UI génèrent un engagement utilisateur plus élevé, mais ils sont coûteux et chronophages. Bien que les modèles Vision-Langage (VLMs) récents puissent traiter l'analyse automatisée des UI, les approches actuelles se concentrent sur des attributs de conception isolés plutôt que sur la persuasivité comparative—le facteur clé dans l'optimisation des interactions utilisateur. Pour répondre à cela, nous introduisons WiserUI-Bench, un benchmark conçu pour la tâche d'Évaluation de la Persuasivité des UI par Paires, comprenant 300 paires d'images d'UI réelles annotées avec des résultats de tests A/B et des justifications d'experts. De plus, nous proposons G-FOCUS, une nouvelle stratégie de raisonnement au moment de l'inférence qui améliore l'évaluation de la persuasivité basée sur les VLMs en réduisant le biais de position et en augmentant la précision de l'évaluation. Les résultats expérimentaux montrent que G-FOCUS surpasse les stratégies d'inférence existantes en termes de cohérence et de précision pour l'évaluation des UI par paires. En promouvant l'évaluation de la persuasivité des UI pilotée par les VLMs, notre travail propose une approche pour compléter les tests A/B, favorisant ainsi les progrès dans la modélisation scalable des préférences d'UI et l'optimisation de la conception. Le code et les données seront rendus publics.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.Summary
AI-Generated Summary