QEIL v2: Гетерогенные вычисления для интеллектуальных периферийных устройств на основе моделирования энергопотребления по Парето-оптимальности, выведенного из метода Roofline, и многоцелевой оркестрации

Аннотация

Развертывание больших языковых моделей (LLM) на гетерогенных периферийных устройствах требует использования фреймворков, совместно оптимизирующих энергоэффективность, качество и надежность вывода. Наша предыдущая версия QEIL v1 (Kumar & Jha, 2026) достигла 4.82-кратного улучшения IPW, но опиралась на статические коэффициенты эффективности, жадную оптимизацию и непроверенный отбор кандидатов. QEIL v2 заменяет каждую статическую эвристику физически обоснованными, адаптирующимися в режиме выполнения моделями. Мы вводим три метрики устройства-нагрузки: DASI (вычисленная утилизация на основе roof-line модели), CPQ (давление на память из теории массового обслуживания) и Phi (тепловая отдача из физики утечек КМОП), формируя единое энергетическое уравнение, где каждый коэффициент прослеживается до физики полупроводников. Для оптимизации PGSAM (Парето-направленный имитационный отжиг с импульсом) одновременно минимизирует энергопотребление, задержку и недозагрузку устройства. Во время вывода каскад выбора EAC/ARDE с досрочной остановкой CSVET обеспечивает прогрессивную верификацию среди повторяющихся сэмплов. По оценкам на WikiText-103, GSM8K и ARC-Challenge для семи семейств моделей (125 млн – 8 млрд параметров, включая предварительно квантованную версию), QEIL v2 достигает 75.7% pass@k при 63.8 Вт (IPW=0.9749), что в 2.86 раза лучше стандартного вывода. При применении к 4-битной Llama-3.1-8B, физически обоснованная маршрутизация QEIL v2 достигает IPW=1.024 при 54.8 Вт — это первая система оркестрации на периферии, превзошедшая эмпирическую контрольную отметку IPW=1.0, причем прирост полностью обусловлен адаптивным к нагрузке распределением устройств QEIL v2 для модели с уменьшенными требованиями к пропускной способности памяти. Суммарное энергопотребление снижается на 75.6% по сравнению со стандартным подходом при сокращении задержки на 38.3%, нулевом тепловом дросселировании и 100% восстановлении после сбоев на всех тестах и семействах моделей.

English

Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.

QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

Аннотация

Support