로플라인 모델링을 통한 온디바이스 LLM 하드웨어 공동 설계 스케일링 법칙
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
February 10, 2026
저자: Luoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng
cs.AI
초록
비전-언어-행동 모델(VLAs)은 물리적 AI의 핵심 패러다임으로 부상하며 자율 주행 차량, 로봇, 스마트 공간에 점차 더 많이 배포되고 있습니다. 이러한 자원이 제한된 온디바이스 환경에서는 적합한 대형 언어 모델(LLM) 백본 선택이 중요한 과제입니다: 모델은 정확도와 엄격한 추론 지연 시간 및 하드웨어 효율성 제약 조건 사이의 균형을 유지해야 합니다. 이로 인해 하드웨어-소프트웨어 공동 설계는 각 하드웨어 플랫폼에 맞춤형 아키텍처 솔루션이 요구되는 온디바이스 LLM 배포에 있어 게임 체인저가 되는 필수 요구사항이 되었습니다. 우리는 모델 정확도와 추론 성능을 함께 포착하는 하드웨어 공동 설계 법칙을 제안합니다. 구체적으로, 우리는 훈련 손실을 아키텍처 하이퍼파라미터의 명시적 함수로 모델링하고, 루프라인 모델링을 통해 추론 지연 시간을 특성화합니다. 우리는 NVIDIA Jetson Orin에서 1,942개의 후보 아키텍처를 실증적으로 평가하고, 아키텍처와 훈련 손실의 관계를 나타내는 스케일링 법칙에 적합하도록 선택된 170개 모델을 각각 100억 토큰씩 훈련시켰습니다. 이 스케일링 법칙과 지연 시간 모델링을 결합함으로써, 우리는 직접적인 정확도-지연 시간 대응 관계를 수립하고 하드웨어 공동 설계 LLM을 위한 파레토 프론티어를 확인합니다. 우리는 더 나아가 아키텍처 탐색을 정밀도와 성능에 대한 공동 최적화 문제로 공식화하여 산업용 하드웨어 및 애플리케이션 예산 하에서 실현 가능한 설계 영역을 도출합니다. 우리의 접근 방식은 아키텍처 선택 기간을 수개월에서 수일로 단축합니다. 목표 하드웨어에서 Qwen2.5-0.5B와 동일한 지연 시간으로, 우리의 공동 설계 아키텍처는 WikiText-2에서 19.42% 더 낮은 퍼플렉서티를 달성합니다. 우리가 알기로, 이는 온디바이스 LLM 배포 분야에서 하드웨어 공동 설계 스케일링 법칙을 위한 최초의 원칙적이고 실무적인 프레임워크입니다. 우리는 코드와 관련 체크포인트를 공개할 예정입니다.
English
Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.