G-FOCUS : Vers une méthode robuste pour évaluer la persuasivité des conceptions d'interface utilisateur

papers.abstract

L'évaluation de l'efficacité de la conception d'interfaces utilisateur (UI) va au-delà de l'esthétique pour influencer le comportement des utilisateurs, un principe central à la Persuasivité du Design. Les tests A/B constituent la méthode prédominante pour déterminer quelles variations d'UI génèrent un engagement utilisateur plus élevé, mais ils sont coûteux et chronophages. Bien que les modèles Vision-Langage (VLMs) récents puissent traiter l'analyse automatisée des UI, les approches actuelles se concentrent sur des attributs de conception isolés plutôt que sur la persuasivité comparative—le facteur clé dans l'optimisation des interactions utilisateur. Pour répondre à cela, nous introduisons WiserUI-Bench, un benchmark conçu pour la tâche d'Évaluation de la Persuasivité des UI par Paires, comprenant 300 paires d'images d'UI réelles annotées avec des résultats de tests A/B et des justifications d'experts. De plus, nous proposons G-FOCUS, une nouvelle stratégie de raisonnement au moment de l'inférence qui améliore l'évaluation de la persuasivité basée sur les VLMs en réduisant le biais de position et en augmentant la précision de l'évaluation. Les résultats expérimentaux montrent que G-FOCUS surpasse les stratégies d'inférence existantes en termes de cohérence et de précision pour l'évaluation des UI par paires. En promouvant l'évaluation de la persuasivité des UI pilotée par les VLMs, notre travail propose une approche pour compléter les tests A/B, favorisant ainsi les progrès dans la modélisation scalable des préférences d'UI et l'optimisation de la conception. Le code et les données seront rendus publics.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS : Vers une méthode robuste pour évaluer la persuasivité des conceptions d'interface utilisateur

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

papers.abstract

Support