G-FOCUS: Auf dem Weg zu einer robusten Methode zur Bewertung der Überzeugungskraft von UI-Designs

papers.abstract

Die Bewertung der Effektivität von Benutzeroberflächen (UI) geht über Ästhetik hinaus und beeinflusst das Benutzerverhalten, ein Prinzip, das zentral für Design Persuasion ist. A/B-Tests sind die vorherrschende Methode, um festzustellen, welche UI-Varianten eine höhere Benutzerbindung fördern, aber sie sind kostspielig und zeitaufwendig. Während aktuelle Vision-Language-Modelle (VLMs) automatisierte UI-Analysen durchführen können, konzentrieren sich bestehende Ansätze auf isolierte Designattribute anstatt auf vergleichende Persuasion – den Schlüsselfaktor zur Optimierung von Benutzerinteraktionen. Um dies zu adressieren, führen wir WiserUI-Bench ein, einen Benchmark für die paarweise Bewertung der UI-Persuasion, der 300 reale UI-Bildpaare mit A/B-Test-Ergebnissen und Expertenbegründungen enthält. Zusätzlich schlagen wir G-FOCUS vor, eine neuartige Inferenzzeit-Strategie, die die Persuasion-Bewertung auf VLM-Basis verbessert, indem sie Positionsverzerrungen reduziert und die Bewertungsgenauigkeit erhöht. Experimentelle Ergebnisse zeigen, dass G-FOCUS bestehende Inferenzstrategien in Konsistenz und Genauigkeit bei der paarweisen UI-Bewertung übertrifft. Indem wir die VLM-gestützte Bewertung der UI-Persuasion fördern, bietet unsere Arbeit einen Ansatz, um A/B-Tests zu ergänzen und den Fortschritt in der skalierbaren Modellierung von UI-Präferenzen und Designoptimierung voranzutreiben. Code und Daten werden öffentlich zugänglich gemacht.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: Auf dem Weg zu einer robusten Methode zur Bewertung der Überzeugungskraft von UI-Designs

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

papers.abstract

Support