Schaalwetten voor Hardware Co-Design via Roofline-modellering voor On-Device LLM's

Samenvatting

Vision-Language-Action-modellen (VLA's) zijn naar voren gekomen als een belangrijk paradigma binnen Physical AI en worden steeds vaker ingezet in autonome voertuigen, robots en slimme ruimtes. In deze resourcebeperkte on-device omgevingen is de selectie van een geschikte large language model (LLM)-backbone een cruciale uitdaging: modellen moeten een balans vinden tussen nauwkeurigheid enerzijds en strikte beperkingen qua inferentielatentie en hardware-efficiëntie anderzijds. Dit maakt hardware-software co-design een game-changing vereiste voor on-device LLM-implementatie, waarbij elk hardwareplatform een op maat gemaakte architecturale oplossing vereist. Wij stellen een wet voor hardware co-design voor die gezamenlijk modelnauwkeurigheid en inferentieprestatie vastlegt. Specifiek modelleren we trainingsverlies als een expliciete functie van architecturale hyperparameters en karakteriseren we inferentielatentie via roofline-modellering. We evalueren empirisch 1.942 kandidaat-architecturen op NVIDIA Jetson Orin, waarbij we 170 geselecteerde modellen trainen voor elk 10B tokens om een schaalwet te passen die architectuur relateert aan trainingsverlies. Door deze schaalwet te koppelen aan latentiemodellering, leggen we een directe nauwkeurigheid-latentie-correspondentie vast en identificeren we de Pareto-grens voor hardware-geco-designde LLM's. We formuleren verder architecturesearch als een gezamenlijke optimalisatie van precisie en prestatie, waarbij we haalbare ontwerpregio's afleiden onder industriële hardware- en applicatiebudgetten. Onze aanpak reduceert architectuurselectie van maanden naar dagen. Bij dezelfde latentie als Qwen2.5-0.5B op de doelhardware behaalt onze geco-designde architectuur 19,42% lagere perplexiteit op WikiText-2. Voor zover wij weten, is dit het eerste principiële en operationele framework voor hardware co-design schaalwetten in on-device LLM-implementatie. We zullen de code en gerelateerde checkpoints openbaar beschikbaar maken.

English

Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.

Schaalwetten voor Hardware Co-Design via Roofline-modellering voor On-Device LLM's

Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

Samenvatting

Support