ConsumerBench: Het benchmarken van generatieve AI-toepassingen op eindgebruikersapparaten

Samenvatting

De recente verschuiving in Generative AI (GenAI)-toepassingen van uitsluitend cloudomgevingen naar eindgebruikersapparaten brengt nieuwe uitdagingen met zich mee op het gebied van resourcebeheer, systeemefficiëntie en gebruikerservaring. Dit artikel introduceert ConsumerBench, een uitgebreid benchmarkframework dat is ontworpen om de systeemefficiëntie en responstijd van GenAI-modellen die draaien op eindgebruikersapparaten te evalueren. In tegenstelling tot bestaande benchmarks die uitgaan van exclusieve modeltoegang op toegewijde GPU's, simuleert ConsumerBench realistische multi-toepassingsscenario's die gelijktijdig worden uitgevoerd op beperkte hardware. Bovendien ondersteunt ConsumerBench aanpasbare workflows die complexe taken simuleren die coördinatie tussen meerdere toepassingen vereisen. ConsumerBench meet zowel toepassingsniveau-metrics, zoals latentie en het behalen van Service Level Objectives (SLO's), als systeemniveau-metrics zoals CPU/GPU-gebruik en geheugenbandbreedte. Door uitgebreide experimenten onthult ConsumerBench inefficiënties in resourceverdeling, oneerlijke planning onder hebberige toewijzing en prestatievalkuilen van statische modelserverconfiguraties. Het artikel biedt ook praktische inzichten voor modelontwikkelaars en systeemontwerpers, waarbij de voordelen van aangepaste kernels die zijn afgestemd op consumenten-GPU-architecturen en de waarde van het implementeren van SLO-bewuste planningsstrategieën worden benadrukt.

English

The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.

ConsumerBench: Het benchmarken van generatieve AI-toepassingen op eindgebruikersapparaten

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

Samenvatting

Support