G-FOCUS: Verso un Metodo Robusto per Valutare la Persuasività del Design dell'Interfaccia Utente

Abstract

La valutazione dell'efficacia del design dell'interfaccia utente (UI) va oltre l'estetica per influenzare il comportamento degli utenti, un principio centrale della Persuasività del Design. Il test A/B è il metodo predominante per determinare quali variazioni di UI guidano un maggiore coinvolgimento degli utenti, ma è costoso e richiede tempo. Sebbene i recenti Modelli Visione-Linguaggio (VLM) possano elaborare analisi automatizzate delle UI, gli approcci attuali si concentrano su attributi di design isolati piuttosto che sulla persuasività comparativa, il fattore chiave per ottimizzare le interazioni degli utenti. Per affrontare questo problema, introduciamo WiserUI-Bench, un benchmark progettato per il compito di Valutazione della Persuasività del Design UI in Coppia, che include 300 coppie di immagini UI reali etichettate con risultati di test A/B e razionali esperti. Inoltre, proponiamo G-FOCUS, una nuova strategia di ragionamento al momento dell'inferenza che migliora la valutazione della persuasività basata su VLM riducendo il bias di posizione e aumentando l'accuratezza della valutazione. I risultati sperimentali mostrano che G-FOCUS supera le strategie di inferenza esistenti in termini di coerenza e accuratezza per la valutazione UI in coppia. Promuovendo la valutazione della persuasività delle UI guidata da VLM, il nostro lavoro offre un approccio per integrare i test A/B, favorendo il progresso nella modellazione scalabile delle preferenze delle UI e nell'ottimizzazione del design. Codice e dati saranno rilasciati pubblicamente.

English

Evaluating user interface (UI) design effectiveness extends beyond aesthetics to influencing user behavior, a principle central to Design Persuasiveness. A/B testing is the predominant method for determining which UI variations drive higher user engagement, but it is costly and time-consuming. While recent Vision-Language Models (VLMs) can process automated UI analysis, current approaches focus on isolated design attributes rather than comparative persuasiveness-the key factor in optimizing user interactions. To address this, we introduce WiserUI-Bench, a benchmark designed for Pairwise UI Design Persuasiveness Assessment task, featuring 300 real-world UI image pairs labeled with A/B test results and expert rationales. Additionally, we propose G-FOCUS, a novel inference-time reasoning strategy that enhances VLM-based persuasiveness assessment by reducing position bias and improving evaluation accuracy. Experimental results show that G-FOCUS surpasses existing inference strategies in consistency and accuracy for pairwise UI evaluation. Through promoting VLM-driven evaluation of UI persuasiveness, our work offers an approach to complement A/B testing, propelling progress in scalable UI preference modeling and design optimization. Code and data will be released publicly.

G-FOCUS: Verso un Metodo Robusto per Valutare la Persuasività del Design dell'Interfaccia Utente

G-FOCUS: Towards a Robust Method for Assessing UI Design Persuasiveness

Abstract

Support