Leggi di Scalabilità del Co-Design Hardware tramite Modellazione Roofline per LLM su Dispositivo
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
February 10, 2026
Autori: Luoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng
cs.AI
Abstract
I modelli Vision-Linguaggio-Azione (VLA) sono emersi come un paradigma chiave dell'Intelligenza Artificiale Fisica e vengono sempre più impiegati in veicoli autonomi, robot e spazi intelligenti. In questi contesti di esecuzione su dispositivo con risorse limitate, la selezione di un'adeguata architettura base di grandi modelli linguistici (LLM) rappresenta una sfida cruciale: i modelli devono bilanciare l'accuratezza con stringenti vincoli di latenza di inferenza ed efficienza hardware. Ciò rende il co-design hardware-software un requisito rivoluzionario per la distribuzione di LLM su dispositivo, dove ogni piattaforma hardware richiede una soluzione architetturale su misura. Proponiamo una legge di co-design hardware che cattura congiuntamente l'accuratezza del modello e le prestazioni di inferenza. Nello specifico, modelliamo la loss di addestramento come una funzione esplicita degli iperparametri architetturali e caratterizziamo la latenza di inferenza attraverso il modello roofline. Valutiamo empiricamente 1.942 architetture candidate su NVIDIA Jetson Orin, addestrando 170 modelli selezionati per 10 miliardi di token ciascuno per adattare una legge di scaling che metta in relazione l'architettura con la loss di addestramento. Accoppiando questa legge di scaling con la modellazione della latenza, stabiliamo una corrispondenza diretta accuratezza-latenza e identifichiamo la frontiera di Pareto per gli LLM co-progettati con l'hardware. Formuliamo inoltre la ricerca architetturale come un'ottimizzazione congiunta su precisione e prestazioni, derivando regioni di progetto fattibili sotto i budget hardware e applicativi industriali. Il nostro approccio riduce la selezione dell'architettura da mesi a giorni. A parità di latenza rispetto a Qwen2.5-0.5B sull'hardware target, la nostra architettura co-progettata raggiunge una perplexity inferiore del 19,42% su WikiText-2. A nostra conoscenza, questo è il primo quadro metodologico principiato e operativo per le leggi di scaling del co-design hardware nella distribuzione di LLM su dispositivo. Renderemo pubblicamente disponibili il codice e i checkpoint correlati.
English
Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.