G-FOCUS: Op weg naar een robuuste methode voor het beoordelen van de overtuigingskracht van UI-ontwerpen

Samenvatting

Het evalueren van de effectiviteit van user interface (UI) ontwerp gaat verder dan esthetiek en beïnvloedt ook gebruikersgedrag, een principe dat centraal staat in Design Persuasiveness. A/B-testen is de meest gebruikte methode om te bepalen welke UI-varianten een hogere gebruikersbetrokkenheid stimuleren, maar het is kostbaar en tijdrovend. Hoewel recente Vision-Language Models (VLMs) geautomatiseerde UI-analyse kunnen uitvoeren, richten huidige benaderingen zich op geïsoleerde ontwerpkenmerken in plaats van op vergelijkende persuasiviteit – de sleutelfactor in het optimaliseren van gebruikersinteracties. Om dit aan te pakken, introduceren we WiserUI-Bench, een benchmark ontworpen voor de Pairwise UI Design Persuasiveness Assessment taak, met 300 real-world UI-beeldparen gelabeld met A/B-testresultaten en expertredeneringen. Daarnaast stellen we G-FOCUS voor, een nieuwe inferentie-tijd redeneerstrategie die de persuasiviteitsbeoordeling op basis van VLM verbetert door positiebias te verminderen en de evaluatienauwkeurigheid te verhogen. Experimentele resultaten tonen aan dat G-FOCUS bestaande inferentiestrategieën overtreft in consistentie en nauwkeurigheid voor pairwise UI-evaluatie. Door VLM-gestuurde evaluatie van UI-persuasiviteit te bevorderen, biedt ons werk een benadering om A/B-testen aan te vullen, wat vooruitgang stimuleert in schaalbare UI-voorkeursmodellering en ontwerpoptimalisatie. Code en data zullen openbaar worden vrijgegeven.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: Op weg naar een robuuste methode voor het beoordelen van de overtuigingskracht van UI-ontwerpen

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

Samenvatting

Support