ChatPaper.aiChatPaper

ConsumerBench: Benchmarking von generativen KI-Anwendungen auf Endgeräten

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

June 21, 2025
Autoren: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI

Zusammenfassung

Die jüngste Verlagerung von Generative AI (GenAI)-Anwendungen von reinen Cloud-Umgebungen auf Endgeräte der Nutzer führt zu neuen Herausforderungen in den Bereichen Ressourcenmanagement, Systemeffizienz und Benutzererfahrung. Dieses Papier stellt ConsumerBench vor, ein umfassendes Benchmarking-Framework, das entwickelt wurde, um die Systemeffizienz und Antwortzeiten von GenAI-Modellen auf Endgeräten zu bewerten. Im Gegensatz zu bestehenden Benchmarks, die einen exklusiven Modellzugriff auf dedizierten GPUs voraussetzen, simuliert ConsumerBench realistische Szenarien mit mehreren Anwendungen, die gleichzeitig auf eingeschränkter Hardware ausgeführt werden. Darüber hinaus unterstützt ConsumerBench anpassbare Workflows, die komplexe Aufgaben simulieren, die eine Koordination zwischen mehreren Anwendungen erfordern. ConsumerBench erfasst sowohl anwendungsbezogene Metriken, wie Latenz und die Einhaltung von Service Level Objectives (SLOs), als auch systembezogene Metriken wie CPU/GPU-Auslastung und Speicherbandbreite. Durch umfangreiche Experimente deckt ConsumerBench Ineffizienzen bei der Ressourcenfreigabe, unfaire Planung bei gieriger Zuweisung und Leistungsprobleme statischer Modellserver-Konfigurationen auf. Das Papier bietet auch praktische Einblicke für Modellentwickler und Systemdesigner und hebt die Vorteile von maßgeschneiderten Kerneln für Consumer-GPU-Architekturen sowie den Wert der Implementierung von SLO-bewussten Planungsstrategien hervor.
English
The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.
PDF61June 24, 2025