QEIL v2: Heterogene Berechnung für Edge Intelligence mittels dachlinienbasierter Pareto-optimaler Energiemodellierung und Multi-Objective-Orchestrierung
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
Autoren: Satyam Kumar, Saurabh Jha
cs.AI
Zusammenfassung
Der Einsatz großer Sprachmodelle (LLM) auf heterogenen Edge-Geräten erfordert Frameworks, die Energieeffizienz, Inferenzqualität und Zuverlässigkeit gemeinsam optimieren. Unser vorheriges QEIL v1 (Kumar & Jha, 2026) erzielte eine 4,82-fache Verbesserung des IPW, basierte jedoch auf statischen Effizienzfaktoren, gieriger Optimierung und ungeprüfter Kandidatenauswahl. QEIL v2 ersetzt jede statische Heuristik durch physikalisch fundierte, laufzeitadaptive Modelle. Wir führen drei Geräte-Arbeitslast-Metriken ein: DASI (roofline-abgeleitete Rechenauslastung), CPQ (Speicherdruck aus der Allokationstheorie) und Phi (thermische Ausbeute aus der CMOS-Leckage-Physik), die eine vereinheitlichte Energiegleichung bilden, deren Koeffizienten sämtlich auf die Halbleiterphysik zurückführbar sind. Für die Optimierung minimiert PGSAM (Pareto-geführtes Simulated Annealing mit Momentum) gleichzeitig Energie, Latenz und Geräteunterauslastung. Zur Inferenzzeit bietet die EAC/ARDE-Auswahlkaskade mit CSVET-Frühstoppen eine progressive Verifizierung wiederholter Stichproben. Ausgewertet auf WikiText-103, GSM8K und ARC-Challenge über sieben Modellfamilien (125M-8B Parameter, inklusive einer vorquantisierten Variante), erreicht QEIL v2 75,7 % pass@k bei 63,8 W (IPW=0,9749) – eine 2,86-fache Verbesserung gegenüber Standard-Inferenz. Bei Anwendung auf ein 4-Bit-Llama-3.1-8B erreicht die physikalisch fundierte Routung von QEIL v2 einen IPW=1,024 bei 54,8 W – das erste Edge-Orchestrierungssystem, das die empirische Referenzmarke IPW=1,0 übertrifft, wobei der Gewinn vollständig auf die arbeitslastadaptive Gerätezuweisung von QEIL v2 bei einem Modell mit reduzierten Speicherbandbreitenanforderungen zurückzuführen ist. Die Gesamtenergie sinkt um 75,6 % gegenüber dem Standard bei 38,3 % geringerer Latenz, ohne thermische Drosselung und mit 100 % Fehlerbehebung über alle Benchmarks und Modellfamilien hinweg.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.