ChatPaper.aiChatPaper

G-FOCUS: Auf dem Weg zu einer robusten Methode zur Bewertung der Überzeugungskraft von UI-Designs

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

May 8, 2025
Autoren: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI

Zusammenfassung

Die Bewertung der Effektivität von Benutzeroberflächen (UI) geht über Ästhetik hinaus und beeinflusst das Benutzerverhalten, ein Prinzip, das zentral für Design Persuasion ist. A/B-Tests sind die vorherrschende Methode, um festzustellen, welche UI-Varianten eine höhere Benutzerbindung fördern, aber sie sind kostspielig und zeitaufwendig. Während aktuelle Vision-Language-Modelle (VLMs) automatisierte UI-Analysen durchführen können, konzentrieren sich bestehende Ansätze auf isolierte Designattribute anstatt auf vergleichende Persuasion – den Schlüsselfaktor zur Optimierung von Benutzerinteraktionen. Um dies zu adressieren, führen wir WiserUI-Bench ein, einen Benchmark für die paarweise Bewertung der UI-Persuasion, der 300 reale UI-Bildpaare mit A/B-Test-Ergebnissen und Expertenbegründungen enthält. Zusätzlich schlagen wir G-FOCUS vor, eine neuartige Inferenzzeit-Strategie, die die Persuasion-Bewertung auf VLM-Basis verbessert, indem sie Positionsverzerrungen reduziert und die Bewertungsgenauigkeit erhöht. Experimentelle Ergebnisse zeigen, dass G-FOCUS bestehende Inferenzstrategien in Konsistenz und Genauigkeit bei der paarweisen UI-Bewertung übertrifft. Indem wir die VLM-gestützte Bewertung der UI-Persuasion fördern, bietet unsere Arbeit einen Ansatz, um A/B-Tests zu ergänzen und den Fortschritt in der skalierbaren Modellierung von UI-Präferenzen und Designoptimierung voranzutreiben. Code und Daten werden öffentlich zugänglich gemacht.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

Summary

AI-Generated Summary

PDF122May 12, 2025