ConsumerBench: Evaluación de Aplicaciones de IA Generativa en Dispositivos de Usuario Final
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
June 21, 2025
Autores: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI
Resumen
El reciente cambio en las aplicaciones de IA Generativa (GenAI) desde entornos exclusivos en la nube hacia dispositivos de usuario final introduce nuevos desafíos en la gestión de recursos, eficiencia del sistema y experiencia del usuario. Este artículo presenta ConsumerBench, un marco de evaluación integral diseñado para medir la eficiencia del sistema y el tiempo de respuesta de modelos GenAI ejecutándose en dispositivos de usuario final. A diferencia de los puntos de referencia existentes que asumen acceso exclusivo a modelos en GPUs dedicadas, ConsumerBench simula escenarios realistas de múltiples aplicaciones ejecutándose concurrentemente en hardware limitado. Además, ConsumerBench admite flujos de trabajo personalizables que simulan tareas complejas que requieren coordinación entre múltiples aplicaciones. ConsumerBench captura tanto métricas a nivel de aplicación, incluyendo latencia y cumplimiento de Objetivos de Nivel de Servicio (SLO), como métricas a nivel de sistema, como utilización de CPU/GPU y ancho de banda de memoria. A través de experimentos exhaustivos, ConsumerBench revela ineficiencias en el uso compartido de recursos, asignación injusta bajo estrategias de asignación codiciosa y problemas de rendimiento en configuraciones estáticas de servidores de modelos. El artículo también ofrece ideas prácticas para desarrolladores de modelos y diseñadores de sistemas, destacando los beneficios de kernels personalizados adaptados a arquitecturas GPU de consumo y el valor de implementar estrategias de planificación conscientes de los SLO.
English
The recent shift in Generative AI (GenAI) applications from cloud-only
environments to end-user devices introduces new challenges in resource
management, system efficiency, and user experience. This paper presents
ConsumerBench, a comprehensive benchmarking framework designed to evaluate the
system efficiency and response time of GenAI models running on end-user
devices. Unlike existing benchmarks that assume exclusive model access on
dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios
executing concurrently on constrained hardware. Furthermore, ConsumerBench
supports customizable workflows that simulate complex tasks requiring
coordination among multiple applications. ConsumerBench captures both
application-level metrics, including latency and Service Level Objective (SLO)
attainment, and system-level metrics like CPU/GPU utilization and memory
bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies
in resource sharing, unfair scheduling under greedy allocation, and performance
pitfalls of static model server configurations. The paper also provides
practical insights for model developers and system designers, highlighting the
benefits of custom kernels tailored to consumer-grade GPU architectures and the
value of implementing SLO-aware scheduling strategies.