G-FOCUS: Op weg naar een robuuste methode voor het beoordelen van de overtuigingskracht van UI-ontwerpen
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Auteurs: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Samenvatting
Het evalueren van de effectiviteit van user interface (UI) ontwerp gaat verder dan esthetiek en beïnvloedt ook gebruikersgedrag, een principe dat centraal staat in Design Persuasiveness. A/B-testen is de meest gebruikte methode om te bepalen welke UI-varianten een hogere gebruikersbetrokkenheid stimuleren, maar het is kostbaar en tijdrovend. Hoewel recente Vision-Language Models (VLMs) geautomatiseerde UI-analyse kunnen uitvoeren, richten huidige benaderingen zich op geïsoleerde ontwerpkenmerken in plaats van op vergelijkende persuasiviteit – de sleutelfactor in het optimaliseren van gebruikersinteracties. Om dit aan te pakken, introduceren we WiserUI-Bench, een benchmark ontworpen voor de Pairwise UI Design Persuasiveness Assessment taak, met 300 real-world UI-beeldparen gelabeld met A/B-testresultaten en expertredeneringen. Daarnaast stellen we G-FOCUS voor, een nieuwe inferentie-tijd redeneerstrategie die de persuasiviteitsbeoordeling op basis van VLM verbetert door positiebias te verminderen en de evaluatienauwkeurigheid te verhogen. Experimentele resultaten tonen aan dat G-FOCUS bestaande inferentiestrategieën overtreft in consistentie en nauwkeurigheid voor pairwise UI-evaluatie. Door VLM-gestuurde evaluatie van UI-persuasiviteit te bevorderen, biedt ons werk een benadering om A/B-testen aan te vullen, wat vooruitgang stimuleert in schaalbare UI-voorkeursmodellering en ontwerpoptimalisatie. Code en data zullen openbaar worden vrijgegeven.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.