Skalierungsgesetze für Hardware-Co-Design durch Roofline-Modellierung für On-Device-LLMs

papers.abstract

Vision-Language-Action-Modelle (VLAs) haben sich als ein zentrales Paradigma der Physical AI etabliert und werden zunehmend in autonomen Fahrzeugen, Robotern und intelligenten Räumen eingesetzt. In diesen ressourcenbeschränkten On-Device-Umgebungen stellt die Auswahl eines geeigneten Large Language Model (LLM)-Backbones eine kritische Herausforderung dar: Modelle müssen Genauigkeit mit strengen Anforderungen an Inferenzlatenz und Hardware-Effizienz in Einklang bringen. Dies macht Hardware-Software-Co-Design zu einer wegweisenden Voraussetzung für den On-Device-LLM-Einsatz, bei dem jede Hardwareplattform eine maßgeschneiderte Architekturlösung erfordert. Wir schlagen ein Hardware-Co-Design-Gesetz vor, das gemeinsam die Modellgenauigkeit und die Inferenzleistung erfasst. Konkret modellieren wir den Trainingsverlust als explizite Funktion architektonischer Hyperparameter und charakterisieren die Inferenzlatenz mittels Roofline-Modellierung. Wir evaluieren empirisch 1.942 Kandidatenarchitekturen auf NVIDIA Jetson Orin, trainieren 170 ausgewählte Modelle mit jeweils 10B Tokens, um ein Skalierungsgesetz zu ermitteln, das die Architektur mit dem Trainingsverlust in Beziehung setzt. Durch die Kopplung dieses Skalierungsgesetzes mit der Latenzmodellierung stellen wir eine direkte Genauigkeits-Latenz-Korrespondenz her und identifizieren die Pareto-Front für hardware-co-designte LLMs. Wir formulieren die Architektursuche weiterhin als eine gemeinsame Optimierung von Präzision und Leistung und leiten daraus machbare Designregionen unter industriellen Hardware- und Anwendungsbudgets ab. Unser Ansatz reduziert die Architekturauswahl von Monaten auf Tage. Bei gleicher Latenz wie Qwen2.5-0.5B auf der Zielhardware erreicht unsere co-designte Architektur eine um 19,42 % geringere Perplexität auf WikiText-2. Unseres Wissens ist dies der erste prinzipienbasierte und operationalisierbare Rahmen für Hardware-Co-Design-Skalierungsgesetze im On-Device-LLM-Einsatz. Wir werden den Code und zugehörige Checkpoints öffentlich verfügbar machen.

English

Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.

Skalierungsgesetze für Hardware-Co-Design durch Roofline-Modellierung für On-Device-LLMs

Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

papers.abstract

Support