Lois d'échelle de co-conception matérielle via la modélisation Roofline pour les LLM embarqués

papers.abstract

Les modèles vision-langage-action (VLA) sont devenus un paradigme clé de l'IA physique et sont de plus en plus déployés dans les véhicules autonomes, les robots et les espaces intelligents. Dans ces environnés matériels aux ressources limitées, la sélection d'un modèle de langage massif (LLM) de base approprié constitue un défi critique : les modèles doivent équilibrer précision et contraintes strictes de latence d'inférence et d'efficacité matérielle. Cela fait de la co-conception matériel-logiciel une exigence révolutionnaire pour le déploiement de LLM embarqués, où chaque plateforme matérielle nécessite une solution architecturale sur mesure. Nous proposons une loi de co-conception matérielle qui capture conjointement la précision du modèle et les performances d'inférence. Spécifiquement, nous modélisons la perte d'entraînement comme une fonction explicite des hyperparamètres architecturaux et caractérisons la latence d'inférence via un modèle roofline. Nous évaluons empiriquement 1 942 architectures candidates sur NVIDIA Jetson Orin, en entraînant 170 modèles sélectionnés sur 10 milliards de tokens chacun pour ajuster une loi d'échelle reliant l'architecture à la perte d'entraînement. En couplant cette loi d'échelle avec la modélisation de latence, nous établissons une correspondance directe précision-latence et identifions la frontière de Pareto pour les LLM co-conçus matériellement. Nous formulons en outre la recherche architecturale comme une optimisation conjointe de la précision et des performances, dérivant des régions de conception réalisables sous contraintes industrielles matérielles et budgétaires applicatives. Notre approche réduit la sélection architecturale de plusieurs mois à quelques jours. À latence égale avec Qwen2.5-0.5B sur le matériel cible, notre architecture co-conçue atteint une perplexité inférieure de 19,42 % sur WikiText-2. À notre connaissance, il s'agit du premier cadre opérationnel et fondé sur des principes pour les lois d'échelle de co-conception matérielle dans le déploiement de LLM embarqués. Nous mettrons publiquement à disposition le code et les points de contrôle associés.

English

Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.

Lois d'échelle de co-conception matérielle via la modélisation Roofline pour les LLM embarqués

Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

papers.abstract

Support