ConsumerBench: 최종 사용자 기기에서의 생성형 AI 애플리케이션 벤치마킹
ConsumerBench: Benchmarking Generative AI Applications on End-User Devices
June 21, 2025
저자: Yile Gu, Rohan Kadekodi, Hoang Nguyen, Keisuke Kamahori, Yiyu Liu, Baris Kasikci
cs.AI
초록
최근 생성형 AI(GenAI) 애플리케이션이 클라우드 전용 환경에서 최종 사용자 기기로 전환되면서 자원 관리, 시스템 효율성, 사용자 경험 측면에서 새로운 도전 과제가 등장하고 있습니다. 본 논문은 최종 사용자 기기에서 실행되는 GenAI 모델의 시스템 효율성과 응답 시간을 평가하기 위해 설계된 포괄적인 벤치마킹 프레임워크인 ConsumerBench를 소개합니다. 전용 GPU에서 모델에 독점적으로 접근한다고 가정하는 기존 벤치마크와 달리, ConsumerBench는 제한된 하드웨어에서 동시에 실행되는 현실적인 다중 애플리케이션 시나리오를 시뮬레이션합니다. 또한 ConsumerBench는 여러 애플리케이션 간의 조정이 필요한 복잡한 작업을 시뮬레이션하는 사용자 정의 가능한 워크플로를 지원합니다. ConsumerBench는 지연 시간 및 서비스 수준 목표(SLO) 달성과 같은 애플리케이션 수준 메트릭과 CPU/GPU 사용률 및 메모리 대역폭과 같은 시스템 수준 메트릭을 모두 포착합니다. 광범위한 실험을 통해 ConsumerBench는 자원 공유의 비효율성, 탐욕적 할당 하에서의 불공정한 스케줄링, 정적 모델 서버 구성의 성능 문제점을 밝혀냅니다. 또한 본 논문은 소비자 등급 GPU 아키텍처에 맞춤화된 커널의 이점과 SLO 인식 스케줄링 전략 구현의 가치를 강조하며, 모델 개발자와 시스템 설계자를 위한 실용적인 통찰을 제공합니다.
English
The recent shift in Generative AI (GenAI) applications from cloud-only
environments to end-user devices introduces new challenges in resource
management, system efficiency, and user experience. This paper presents
ConsumerBench, a comprehensive benchmarking framework designed to evaluate the
system efficiency and response time of GenAI models running on end-user
devices. Unlike existing benchmarks that assume exclusive model access on
dedicated GPUs, ConsumerBench simulates realistic multi-application scenarios
executing concurrently on constrained hardware. Furthermore, ConsumerBench
supports customizable workflows that simulate complex tasks requiring
coordination among multiple applications. ConsumerBench captures both
application-level metrics, including latency and Service Level Objective (SLO)
attainment, and system-level metrics like CPU/GPU utilization and memory
bandwidth. Through extensive experiments, ConsumerBench reveals inefficiencies
in resource sharing, unfair scheduling under greedy allocation, and performance
pitfalls of static model server configurations. The paper also provides
practical insights for model developers and system designers, highlighting the
benefits of custom kernels tailored to consumer-grade GPU architectures and the
value of implementing SLO-aware scheduling strategies.