Leis de Escalonamento de Co-Design de Hardware via Modelagem Roofline para LLMs em Dispositivos

Resumo

Os Modelos Visão-Linguagem-Ação (VLAs) emergiram como um paradigma fundamental da Inteligência Artificial Física e estão sendo cada vez mais implantados em veículos autónomos, robôs e espaços inteligentes. Nestes ambientes restritos de recursos em dispositivo, a seleção de um modelo de linguagem grande (LLM) base adequado é um desafio crítico: os modelos devem equilibrar precisão com restrições rigorosas de latência de inferência e eficiência de hardware. Isto torna a co-projetação hardware-software um requisito transformador para a implantação de LLMs em dispositivo, onde cada plataforma de hardware exige uma solução arquitectónica personalizada. Propomos uma lei de co-projetação de hardware que capta conjuntamente a precisão do modelo e o desempenho de inferência. Especificamente, modelamos a perda de treino como uma função explícita dos hiperparâmetros arquitectónicos e caracterizamos a latência de inferência através da modelação roofline. Avaliamos empiricamente 1.942 arquiteturas candidatas no NVIDIA Jetson Orin, treinando 170 modelos selecionados com 10B de tokens cada para ajustar uma lei de escalonamento que relaciona a arquitetura com a perda de treino. Ao acoplar esta lei de escalonamento com a modelação de latência, estabelecemos uma correspondência direta precisão-latência e identificamos a fronteira de Pareto para LLMs co-projetados para hardware. Formula-mos ainda a pesquisa de arquitetura como uma otimização conjunta sobre precisão e desempenho, derivando regiões de projeto viáveis sob orçamentos industriais de hardware e aplicação. A nossa abordagem reduz a seleção de arquitetura de meses para dias. À mesma latência do Qwen2.5-0.5B no hardware alvo, a nossa arquitetura co-projetada alcança uma perplexidade 19,42% inferior no WikiText-2. Até onde sabemos, este é o primeiro quadro operacional e fundamentado para leis de escalonamento de co-projetação de hardware na implantação de LLMs em dispositivo. Disponibilizaremos publicamente o código e os checkpoints relacionados.

English

Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.

Leis de Escalonamento de Co-Design de Hardware via Modelagem Roofline para LLMs em Dispositivos

Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

Resumo

Support