ConsumerBench: Valutazione delle Applicazioni di Intelligenza Artificiale Generativa su Dispositivi Utente Finale

Abstract

Il recente passaggio delle applicazioni di Intelligenza Artificiale Generativa (GenAI) da ambienti esclusivamente cloud a dispositivi degli utenti finali introduce nuove sfide nella gestione delle risorse, nell'efficienza del sistema e nell'esperienza utente. Questo articolo presenta ConsumerBench, un framework di benchmarking completo progettato per valutare l'efficienza del sistema e i tempi di risposta dei modelli GenAI in esecuzione su dispositivi degli utenti finali. A differenza dei benchmark esistenti che presuppongono un accesso esclusivo ai modelli su GPU dedicate, ConsumerBench simula scenari realistici multi-applicazione eseguiti contemporaneamente su hardware limitato. Inoltre, ConsumerBench supporta flussi di lavoro personalizzabili che simulano compiti complessi che richiedono il coordinamento tra più applicazioni. ConsumerBench cattura sia metriche a livello di applicazione, tra cui latenza e raggiungimento degli Obiettivi di Livello di Servizio (SLO), sia metriche a livello di sistema come l'utilizzo della CPU/GPU e la larghezza di banda della memoria. Attraverso esperimenti estensivi, ConsumerBench rivela inefficienze nella condivisione delle risorse, una pianificazione ingiusta sotto allocazioni avide e le insidie delle prestazioni delle configurazioni statiche dei server di modelli. L'articolo fornisce anche approfondimenti pratici per gli sviluppatori di modelli e i progettisti di sistemi, evidenziando i vantaggi dei kernel personalizzati ottimizzati per le architetture GPU di livello consumer e il valore dell'implementazione di strategie di pianificazione consapevoli degli SLO.

English

The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.

ConsumerBench: Valutazione delle Applicazioni di Intelligenza Artificiale Generativa su Dispositivi Utente Finale

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

Abstract

Support