QEIL v2: Calcolo Eterogeneo per l'Intelligenza al Bordo tramite Modellizzazione Energetica Pareto-Ottimale Derivata da Roofline e Orchestrazione Multi-Obiettivo
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
Autori: Satyam Kumar, Saurabh Jha
cs.AI
Abstract
L'implementazione di grandi modelli linguistici (LLM) su dispositivi edge eterogenei richiede framework che ottimizzino congiuntamente l'efficienza energetica, la qualità dell'inferenza e l'affidabilità. Il nostro precedente QEIL v1 (Kumar & Jha, 2026) ha ottenuto un miglioramento di 4,82x dell'IPW, ma si basava su fattori di efficienza statici, ottimizzazione greedy e selezione dei candidati non verificata. QEIL v2 sostituisce ogni euristica statica con modelli adattativi a runtime basati sulla fisica. Introduciamo tre metriche dispositivo-carico di lavoro: DASI (utilizzo computazionale derivato dal modello roofline), CPQ (pressione sulla memoria derivata dalla teoria delle code) e Phi (rendimento termico basato sulla fisica delle perdite CMOS), formando un'equazione energetica unificata in cui ogni coefficiente è riconducibile alla fisica dei semiconduttori. Per l'ottimizzazione, PGSAM (Simulated Annealing con Guida Pareto e Momento) minimizza simultaneamente energia, latenza e sottoutilizzo del dispositivo. Al momento dell'inferenza, la cascada di selezione EAC/ARDE con arresto anticipato CSVET fornisce una verifica progressiva tra campioni ripetuti. Valutato su WikiText-103, GSM8K e ARC-Challenge su sette famiglie di modelli (125M-8B parametri, inclusa una variante pre-quantizzata), QEIL v2 raggiunge il 75,7% di pass@k a 63,8W (IPW=0,9749), un miglioramento di 2,86x rispetto all'inferenza standard. Applicato a un Llama-3.1-8B a 4 bit, l'instradamento basato sulla fisica di QEIL v2 raggiunge IPW=1,024 a 54,8W – il primo sistema di orchestrazione edge a superare il riferimento empirico IPW=1,0, con il guadagno interamente attribuibile all'allocazione adattativa del carico di lavoro su dispositivo di QEIL v2 per un modello con requisiti ridotti di banda di memoria. L'energia totale si riduce del 75,6% rispetto allo standard, con una riduzione della latenza del 38,3%, zero throttling termico e recupero del 100% dei fault in tutti i benchmark e le famiglie di modelli.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.