Законы масштабирования совместного проектирования аппаратного и программного обеспечения с помощью моделирования Roofline для локальных больших языковых моделей
Hardware Co-Design Scaling Laws via Roofline Modelling for On-Device LLMs
February 10, 2026
Авторы: Luoyang Sun, Jiwen Jiang, Yifeng Ding, Fengfa Li, Yan Song, Haifeng Zhang, Jian Ying, Lei Ren, Kun Zhan, Wei Chen, Yan Xie, Cheng Deng
cs.AI
Аннотация
Модели «Vision-Language-Action» (VLA) стали ключевой парадигмой в области физического искусственного интеллекта и все чаще развертываются в автономных транспортных средствах, роботах и умных пространствах. В этих ограниченных по ресурсам встроенных системах выбор подходящей базовой большой языковой модели (LLM) является критически важной задачей: модели должны балансировать точность со строгими ограничениями на задержку вывода и аппаратную эффективность. Это делает совместное проектирование аппаратного и программного обеспечения (hardware-software co-design) кардинально необходимым требованием для развертывания LLM на устройстве, где каждая аппаратная платформа требует индивидуального архитектурного решения. Мы предлагаем закон совместного аппаратного проектирования, который совместно учитывает точность модели и производительность вывода. В частности, мы моделируем потери при обучении как явную функцию архитектурных гиперпараметров и характеризуем задержку вывода с помощью рофлайн-моделирования. Мы эмпирически оцениваем 1942 кандидатных архитектуры на платформе NVIDIA Jetson Orin, обучив 170 отобранных моделей на 10 млрд токенов каждая, чтобы вывести закон масштабирования, связывающий архитектуру с потерями при обучении. Сопоставляя этот закон масштабирования с моделью задержки, мы устанавливаем прямую взаимосвязь «точность-задержка» и определяем Парето-фронт для LLM, спроектированных совместно с аппаратным обеспечением. Мы также формулируем поиск архитектуры как совместную оптимизацию по точности и производительности, определяя допустимые области проектирования в рамках промышленных аппаратных бюджетов и бюджетов приложений. Наш подход сокращает время выбора архитектуры с месяцев до дней. При той же задержке, что и у модели Qwen2.5-0.5B на целевом оборудовании, наша совместно спроектированная архитектура демонстрирует на 19,42% меньшую перплексию на WikiText-2. Насколько нам известно, это первая принципиальная и работоспособная framework для законов масштабирования с совместным аппаратным проектированием при развертывании LLM на устройстве. Мы сделаем код и соответствующие контрольные точки общедоступными.
English
Vision-Language-Action Models (VLAs) have emerged as a key paradigm of Physical AI and are increasingly deployed in autonomous vehicles, robots, and smart spaces. In these resource-constrained on-device settings, selecting an appropriate large language model (LLM) backbone is a critical challenge: models must balance accuracy with strict inference latency and hardware efficiency constraints. This makes hardware-software co-design a game-changing requirement for on-device LLM deployment, where each hardware platform demands a tailored architectural solution. We propose a hardware co-design law that jointly captures model accuracy and inference performance. Specifically, we model training loss as an explicit function of architectural hyperparameters and characterise inference latency via roofline modelling. We empirically evaluate 1,942 candidate architectures on NVIDIA Jetson Orin, training 170 selected models for 10B tokens each to fit a scaling law relating architecture to training loss. By coupling this scaling law with latency modelling, we establish a direct accuracy-latency correspondence and identify the Pareto frontier for hardware co-designed LLMs. We further formulate architecture search as a joint optimisation over precision and performance, deriving feasible design regions under industrial hardware and application budgets. Our approach reduces architecture selection from months to days. At the same latency as Qwen2.5-0.5B on the target hardware, our co-designed architecture achieves 19.42% lower perplexity on WikiText-2. To our knowledge, this is the first principled and operational framework for hardware co-design scaling laws in on-device LLM deployment. We will make the code and related checkpoints publicly available.