ConsumerBench: Valutazione delle Applicazioni di Intelligenza Artificiale Generativa su Dispositivi Utente Finale
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
June 21, 2025
Autori: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI
Abstract
Il recente passaggio delle applicazioni di Intelligenza Artificiale Generativa (GenAI) da ambienti esclusivamente cloud a dispositivi degli utenti finali introduce nuove sfide nella gestione delle risorse, nell'efficienza del sistema e nell'esperienza utente. Questo articolo presenta ConsumerBench, un framework di benchmarking completo progettato per valutare l'efficienza del sistema e i tempi di risposta dei modelli GenAI in esecuzione su dispositivi degli utenti finali. A differenza dei benchmark esistenti che presuppongono un accesso esclusivo ai modelli su GPU dedicate, ConsumerBench simula scenari realistici multi-applicazione eseguiti contemporaneamente su hardware limitato. Inoltre, ConsumerBench supporta flussi di lavoro personalizzabili che simulano compiti complessi che richiedono il coordinamento tra più applicazioni. ConsumerBench cattura sia metriche a livello di applicazione, tra cui latenza e raggiungimento degli Obiettivi di Livello di Servizio (SLO), sia metriche a livello di sistema come l'utilizzo della CPU/GPU e la larghezza di banda della memoria. Attraverso esperimenti estensivi, ConsumerBench rivela inefficienze nella condivisione delle risorse, una pianificazione ingiusta sotto allocazioni avide e le insidie delle prestazioni delle configurazioni statiche dei server di modelli. L'articolo fornisce anche approfondimenti pratici per gli sviluppatori di modelli e i progettisti di sistemi, evidenziando i vantaggi dei kernel personalizzati ottimizzati per le architetture GPU di livello consumer e il valore dell'implementazione di strategie di pianificazione consapevoli degli SLO.
English
The recent shift in Generative AI (GenAI) applications from cloud-only
environments to end-user devices introduces new challenges in resource
management, system efficiency, and user experience. This paper presents
ConsumerBench, a comprehensive benchmarking framework designed to evaluate the
system efficiency and response time of GenAI models running on end-user
devices. Unlike existing benchmarks that assume exclusive model access on
dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios
executing concurrently on constrained hardware. Furthermore, ConsumerBench
supports customizable workflows that simulate complex tasks requiring
coordination among multiple applications. ConsumerBench captures both
application-level metrics, including latency and Service Level Objective (SLO)
attainment, and system-level metrics like CPU/GPU utilization and memory
bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies
in resource sharing, unfair scheduling under greedy allocation, and performance
pitfalls of static model server configurations. The paper also provides
practical insights for model developers and system designers, highlighting the
benefits of custom kernels tailored to consumer-grade GPU architectures and the
value of implementing SLO-aware scheduling strategies.