ChatPaper.aiChatPaper

ConsumerBench : Évaluation des Applications d'IA Générative sur les Appareils des Utilisateurs Finaux

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

June 21, 2025
Auteurs: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI

Résumé

Le récent déplacement des applications d'IA générative (GenAI) des environnements exclusivement cloud vers les appareils des utilisateurs finaux introduit de nouveaux défis en matière de gestion des ressources, d'efficacité système et d'expérience utilisateur. Cet article présente ConsumerBench, un cadre de benchmarking complet conçu pour évaluer l'efficacité système et le temps de réponse des modèles GenAI exécutés sur les appareils des utilisateurs finaux. Contrairement aux benchmarks existants qui supposent un accès exclusif aux modèles sur des GPU dédiés, ConsumerBench simule des scénarios réalistes d'applications multiples exécutées simultanément sur du matériel contraint. De plus, ConsumerBench prend en charge des workflows personnalisables qui simulent des tâches complexes nécessitant la coordination entre plusieurs applications. ConsumerBench capture à la fois des métriques au niveau de l'application, incluant la latence et l'atteinte des objectifs de niveau de service (SLO), et des métriques au niveau du système, comme l'utilisation du CPU/GPU et la bande passante mémoire. À travers des expériences approfondies, ConsumerBench révèle des inefficacités dans le partage des ressources, des inégalités de planification sous allocation gourmande, et les pièges de performance des configurations statiques de serveurs de modèles. L'article fournit également des insights pratiques pour les développeurs de modèles et les concepteurs de systèmes, mettant en avant les avantages des noyaux personnalisés adaptés aux architectures GPU grand public et la valeur de la mise en œuvre de stratégies de planification conscientes des SLO.
English
The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.
PDF61June 24, 2025