Leyes de Escalado de Co-Diseño Hardware mediante Modelado Roofline para LLMs en Dispositivo

Resumen

Los Modelos de Visión-Lenguaje-Acción (VLA) han surgido como un paradigma clave de la Inteligencia Artificial Física y se despliegan cada vez más en vehículos autónomos, robots y espacios inteligentes. En estos entornos con recursos limitados en el dispositivo, seleccionar un modelo de lenguaje grande (LLM) base adecuado es un desafío crítico: los modelos deben equilibrar la precisión con restricciones estrictas de latencia de inferencia y eficiencia de hardware. Esto convierte a la codiseño hardware-software en un requisito transformador para el despliegue de LLMs en el dispositivo, donde cada plataforma de hardware exige una solución arquitectónica personalizada. Proponemos una ley de codiseño hardware que captura conjuntamente la precisión del modelo y el rendimiento de inferencia. Específicamente, modelamos la pérdida de entrenamiento como una función explícita de los hiperparámetros arquitectónicos y caracterizamos la latencia de inferencia mediante modelos de límite máximo (roofline). Evaluamos empíricamente 1.942 arquitecturas candidatas en NVIDIA Jetson Orin, entrenando 170 modelos seleccionados con 10B de tokens cada uno para ajustar una ley de escalado que relaciona la arquitectura con la pérdida de entrenamiento. Al acoplar esta ley de escalado con el modelado de latencia, establecemos una correspondencia directa precisión-latencia e identificamos la frontera de Pareto para LLMs con codiseño hardware. Además, formulamos la búsqueda de arquitectura como una optimización conjunta de precisión y rendimiento, derivando regiones de diseño factibles bajo presupuestos industriales de hardware y aplicación. Nuestro enfoque reduce la selección de arquitectura de meses a días. Con la misma latencia que Qwen2.5-0.5B en el hardware objetivo, nuestra arquitectura con codiseño logra una perplejidad 19.42% menor en WikiText-2. Hasta donde sabemos, este es el primer marco operativo y basado en principios para leyes de escalado de codiseño hardware en el despliegue de LLMs en el dispositivo. Pondremos el código y los puntos de control relacionados a disposición del público.

English

Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.

Leyes de Escalado de Co-Diseño Hardware mediante Modelado Roofline para LLMs en Dispositivo

Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs

Resumen

Support