ConsumerBench: Evaluación de Aplicaciones de IA Generativa en Dispositivos de Usuario Final

Resumen

El reciente cambio en las aplicaciones de IA Generativa (GenAI) desde entornos exclusivos en la nube hacia dispositivos de usuario final introduce nuevos desafíos en la gestión de recursos, eficiencia del sistema y experiencia del usuario. Este artículo presenta ConsumerBench, un marco de evaluación integral diseñado para medir la eficiencia del sistema y el tiempo de respuesta de modelos GenAI ejecutándose en dispositivos de usuario final. A diferencia de los puntos de referencia existentes que asumen acceso exclusivo a modelos en GPUs dedicadas, ConsumerBench simula escenarios realistas de múltiples aplicaciones ejecutándose concurrentemente en hardware limitado. Además, ConsumerBench admite flujos de trabajo personalizables que simulan tareas complejas que requieren coordinación entre múltiples aplicaciones. ConsumerBench captura tanto métricas a nivel de aplicación, incluyendo latencia y cumplimiento de Objetivos de Nivel de Servicio (SLO), como métricas a nivel de sistema, como utilización de CPU/GPU y ancho de banda de memoria. A través de experimentos exhaustivos, ConsumerBench revela ineficiencias en el uso compartido de recursos, asignación injusta bajo estrategias de asignación codiciosa y problemas de rendimiento en configuraciones estáticas de servidores de modelos. El artículo también ofrece ideas prácticas para desarrolladores de modelos y diseñadores de sistemas, destacando los beneficios de kernels personalizados adaptados a arquitecturas GPU de consumo y el valor de implementar estrategias de planificación conscientes de los SLO.

English

The recent shift in Generative AI (GenAI) applications from cloud-only environments to end-user devices introduces new challenges in resource management, system efficiency, and user experience. This paper presents ConsumerBench, a comprehensive benchmarking framework designed to evaluate the system efficiency and response time of GenAI models running on end-user devices. Unlike existing benchmarks that assume exclusive model access on dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios executing concurrently on constrained hardware. Furthermore, ConsumerBench supports customizable workflows that simulate complex tasks requiring coordination among multiple applications. ConsumerBench captures both application-level metrics, including latency and Service Level Objective (SLO) attainment, and system-level metrics like CPU/GPU utilization and memory bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies in resource sharing, unfair scheduling under greedy allocation, and performance pitfalls of static model server configurations. The paper also provides practical insights for model developers and system designers, highlighting the benefits of custom kernels tailored to consumer-grade GPU architectures and the value of implementing SLO-aware scheduling strategies.

ConsumerBench: Evaluación de Aplicaciones de IA Generativa en Dispositivos de Usuario Final

ConsumerBench: Benchmarking Generative AI Applications on End-User Devices

Resumen

Support