ConsumerBench: Het benchmarken van generatieve AI-toepassingen op eindgebruikersapparaten
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
June 21, 2025
Auteurs: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI
Samenvatting
De recente verschuiving in Generative AI (GenAI)-toepassingen van uitsluitend cloudomgevingen naar eindgebruikersapparaten brengt nieuwe uitdagingen met zich mee op het gebied van resourcebeheer, systeemefficiëntie en gebruikerservaring. Dit artikel introduceert ConsumerBench, een uitgebreid benchmarkframework dat is ontworpen om de systeemefficiëntie en responstijd van GenAI-modellen die draaien op eindgebruikersapparaten te evalueren. In tegenstelling tot bestaande benchmarks die uitgaan van exclusieve modeltoegang op toegewijde GPU's, simuleert ConsumerBench realistische multi-toepassingsscenario's die gelijktijdig worden uitgevoerd op beperkte hardware. Bovendien ondersteunt ConsumerBench aanpasbare workflows die complexe taken simuleren die coördinatie tussen meerdere toepassingen vereisen. ConsumerBench meet zowel toepassingsniveau-metrics, zoals latentie en het behalen van Service Level Objectives (SLO's), als systeemniveau-metrics zoals CPU/GPU-gebruik en geheugenbandbreedte. Door uitgebreide experimenten onthult ConsumerBench inefficiënties in resourceverdeling, oneerlijke planning onder hebberige toewijzing en prestatievalkuilen van statische modelserverconfiguraties. Het artikel biedt ook praktische inzichten voor modelontwikkelaars en systeemontwerpers, waarbij de voordelen van aangepaste kernels die zijn afgestemd op consumenten-GPU-architecturen en de waarde van het implementeren van SLO-bewuste planningsstrategieën worden benadrukt.
English
The recent shift in Generative AI (GenAI) applications from cloud-only
environments to end-user devices introduces new challenges in resource
management, system efficiency, and user experience. This paper presents
ConsumerBench, a comprehensive benchmarking framework designed to evaluate the
system efficiency and response time of GenAI models running on end-user
devices. Unlike existing benchmarks that assume exclusive model access on
dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios
executing concurrently on constrained hardware. Furthermore, ConsumerBench
supports customizable workflows that simulate complex tasks requiring
coordination among multiple applications. ConsumerBench captures both
application-level metrics, including latency and Service Level Objective (SLO)
attainment, and system-level metrics like CPU/GPU utilization and memory
bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies
in resource sharing, unfair scheduling under greedy allocation, and performance
pitfalls of static model server configurations. The paper also provides
practical insights for model developers and system designers, highlighting the
benefits of custom kernels tailored to consumer-grade GPU architectures and the
value of implementing SLO-aware scheduling strategies.