G-FOCUS: Auf dem Weg zu einer robusten Methode zur Bewertung der Überzeugungskraft von UI-Designs
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Autoren: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Zusammenfassung
Die Bewertung der Effektivität von Benutzeroberflächen (UI) geht über Ästhetik hinaus und beeinflusst das Benutzerverhalten, ein Prinzip, das zentral für Design Persuasion ist. A/B-Tests sind die vorherrschende Methode, um festzustellen, welche UI-Varianten eine höhere Benutzerbindung fördern, aber sie sind kostspielig und zeitaufwendig. Während aktuelle Vision-Language-Modelle (VLMs) automatisierte UI-Analysen durchführen können, konzentrieren sich bestehende Ansätze auf isolierte Designattribute anstatt auf vergleichende Persuasion – den Schlüsselfaktor zur Optimierung von Benutzerinteraktionen. Um dies zu adressieren, führen wir WiserUI-Bench ein, einen Benchmark für die paarweise Bewertung der UI-Persuasion, der 300 reale UI-Bildpaare mit A/B-Test-Ergebnissen und Expertenbegründungen enthält. Zusätzlich schlagen wir G-FOCUS vor, eine neuartige Inferenzzeit-Strategie, die die Persuasion-Bewertung auf VLM-Basis verbessert, indem sie Positionsverzerrungen reduziert und die Bewertungsgenauigkeit erhöht. Experimentelle Ergebnisse zeigen, dass G-FOCUS bestehende Inferenzstrategien in Konsistenz und Genauigkeit bei der paarweisen UI-Bewertung übertrifft. Indem wir die VLM-gestützte Bewertung der UI-Persuasion fördern, bietet unsere Arbeit einen Ansatz, um A/B-Tests zu ergänzen und den Fortschritt in der skalierbaren Modellierung von UI-Präferenzen und Designoptimierung voranzutreiben. Code und Daten werden öffentlich zugänglich gemacht.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.Summary
AI-Generated Summary