G-FOCUS: Verso un Metodo Robusto per Valutare la Persuasività del Design dell'Interfaccia Utente
G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness
May 8, 2025
Autori: Jaehyun Jeon, Jang Han Yoon, Min Soo Kim, Sumin Shim, Yejin Choi, Hanbin Kim, Youngjae Yu
cs.AI
Abstract
La valutazione dell'efficacia del design dell'interfaccia utente (UI) va oltre l'estetica per influenzare il comportamento degli utenti, un principio centrale della Persuasività del Design. Il test A/B è il metodo predominante per determinare quali variazioni di UI guidano un maggiore coinvolgimento degli utenti, ma è costoso e richiede tempo. Sebbene i recenti Modelli Visione-Linguaggio (VLM) possano elaborare analisi automatizzate delle UI, gli approcci attuali si concentrano su attributi di design isolati piuttosto che sulla persuasività comparativa, il fattore chiave per ottimizzare le interazioni degli utenti. Per affrontare questo problema, introduciamo WiserUI-Bench, un benchmark progettato per il compito di Valutazione della Persuasività del Design UI in Coppia, che include 300 coppie di immagini UI reali etichettate con risultati di test A/B e razionali esperti. Inoltre, proponiamo G-FOCUS, una nuova strategia di ragionamento al momento dell'inferenza che migliora la valutazione della persuasività basata su VLM riducendo il bias di posizione e aumentando l'accuratezza della valutazione. I risultati sperimentali mostrano che G-FOCUS supera le strategie di inferenza esistenti in termini di coerenza e accuratezza per la valutazione UI in coppia. Promuovendo la valutazione della persuasività delle UI guidata da VLM, il nostro lavoro offre un approccio per integrare i test A/B, favorendo il progresso nella modellazione scalabile delle preferenze delle UI e nell'ottimizzazione del design. Codice e dati saranno rilasciati pubblicamente.
English
Evaluating user interface (UI) design effectiveness extends beyond aesthetics
to influencing user behavior, a principle central to Design Persuasiveness. A/B
testing is the predominant method for determining which UI variations drive
higher user engagement, but it is costly and time-consuming. While recent
Vision-Language Models (VLMs) can process automated UI analysis, current
approaches focus on isolated design attributes rather than comparative
persuasiveness-the key factor in optimizing user interactions. To address this,
we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design
Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled
with A/B test results and expert rationales. Additionally, we propose G-FOCUS,
a novel inference-time reasoning strategy that enhances VLM-based
persuasiveness assessment by reducing position bias and improving evaluation
accuracy. Experimental results show that G-FOCUS surpasses existing inference
strategies in consistency and accuracy for pairwise UI evaluation. Through
promoting VLM-driven evaluation of UI persuasiveness, our work offers an
approach to complement A/B testing, propelling progress in scalable UI
preference modeling and design optimization. Code and data will be released
publicly.