QEIL v2: Heterogene Computergebruik voor Edge Intelligence via Roofline-afgeleide Pareto-optimale Energiemodellering en Multi-doelstellings Orchestratie
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
Auteurs: Satyam Kumar, Saurabh Jha
cs.AI
Samenvatting
Het inzetten van grote taalmodellen (LLM's) op heterogene edge-apparaten vereist raamwerken die energie-efficiëntie, inferentiekwaliteit en betrouwbaarheid gezamenlijk optimaliseren. Onze eerdere QEIL v1 (Kumar & Jha, 2026) behaalde een 4,82x IPW-verbetering, maar steunde op statische efficiëntiefactoren, hebberige optimalisatie en ongeverifieerde kandidaatselectie. QEIL v2 vervangt elke statische heuristiek door fysica-gestuurde, runtime-adaptieve modellen. Wij introduceren drie apparaat-workload metrieken: DASI (roofline-afgeleide rekenbenutting), CPQ (geheugendruk uit allocatietheorie) en Phi (thermische opbrengst uit CMOS-lekfysica), die een uniforme energievergelijking vormen waarbij elke coëfficiënt herleidbaar is tot halfgeleiderfysica. Voor optimalisatie minimaliseert PGSAM (Pareto-Guided Simulated Annealing with Momentum) gelijktijdig energie, latentie en apparaatonderbenutting. Tijdens inferentie biedt de EAC/ARDE-selectiecascade met CSVET-vroege stopzetting progressieve verificatie tussen herhaalde samples. Geëvalueerd op WikiText-103, GSM8K en ARC-Challenge over zeven modelfamilies (125M-8B parameters, inclusief een vooraf gekwantiseerde variant), behaalt QEIL v2 75,7% pass@k bij 63,8W (IPW=0,9749), een 2,86x verbetering ten opzichte van standaard inferentie. Toegepast op een 4-bit Llama-3.1-8B bereikt QEIL v2's fysica-gestuurde routering IPW=1,024 bij 54,8W – het eerste edge-orchestratatiesysteem dat het empirische referentieniveau IPW=1,0 overschrijdt, waarbij de winst volledig toe te schrijven is aan QEIL v2's workload-adaptieve apparaattoewijzing op een model met verminderde geheugenbandbreedtebehoefte. Totale energie daalt met 75,6% ten opzichte van standaard, met 38,3% latentiereductie, geen thermische beperking en 100% foutherstel over alle benchmarks en modelfamilies.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.