ChatPaper.aiChatPaper

G-FOCUS: Op weg naar een robuuste methode voor het beoordelen van de overtuigingskracht van UI-ontwerpen

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

May 8, 2025
Auteurs: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI

Samenvatting

Het evalueren van de effectiviteit van user interface (UI) ontwerp gaat verder dan esthetiek en beïnvloedt ook gebruikersgedrag, een principe dat centraal staat in Design Persuasiveness. A/B-testen is de meest gebruikte methode om te bepalen welke UI-varianten een hogere gebruikersbetrokkenheid stimuleren, maar het is kostbaar en tijdrovend. Hoewel recente Vision-Language Models (VLMs) geautomatiseerde UI-analyse kunnen uitvoeren, richten huidige benaderingen zich op geïsoleerde ontwerpkenmerken in plaats van op vergelijkende persuasiviteit – de sleutelfactor in het optimaliseren van gebruikersinteracties. Om dit aan te pakken, introduceren we WiserUI-Bench, een benchmark ontworpen voor de Pairwise UI Design Persuasiveness Assessment taak, met 300 real-world UI-beeldparen gelabeld met A/B-testresultaten en expertredeneringen. Daarnaast stellen we G-FOCUS voor, een nieuwe inferentie-tijd redeneerstrategie die de persuasiviteitsbeoordeling op basis van VLM verbetert door positiebias te verminderen en de evaluatienauwkeurigheid te verhogen. Experimentele resultaten tonen aan dat G-FOCUS bestaande inferentiestrategieën overtreft in consistentie en nauwkeurigheid voor pairwise UI-evaluatie. Door VLM-gestuurde evaluatie van UI-persuasiviteit te bevorderen, biedt ons werk een benadering om A/B-testen aan te vullen, wat vooruitgang stimuleert in schaalbare UI-voorkeursmodellering en ontwerpoptimalisatie. Code en data zullen openbaar worden vrijgegeven.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.
PDF152May 12, 2025