ChatPaper.aiChatPaper

QEIL v2 : Informatique hétérogène pour l'intelligence en périphérie via une modélisation énergétique Pareto-optimale dérivée de Roofline et une orchestration multi-objectifs

QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

April 5, 2026
Auteurs: Satyam Kumar, Saurabh Jha
cs.AI

Résumé

Le déploiement de modèles de langage de grande taille (LLM) sur des dispositifs edge hétérogènes nécessite des cadriciels qui optimisent conjointement l'efficacité énergétique, la qualité de l'inférence et la fiabilité. Notre précédent QEIL v1 (Kumar & Jha, 2026) a obtenu une amélioration de 4,82x de l'IPW, mais reposait sur des facteurs d'efficacité statiques, une optimisation gloutonne et une sélection de candidats non vérifiée. QEIL v2 remplace chaque heuristique statique par des modèles fondés sur la physique et adaptatifs au temps d'exécution. Nous introduisons trois métriques dispositif-charge : DASI (utilisation du calcul dérivée du modèle roofline), CPQ (pression mémoire issue de la théorie de l'allocation) et Phi (rendement thermique issu de la physique des fuites CMOS), formant une équation énergétique unifiée dont chaque coefficient est traçable jusqu'à la physique des semi-conducteurs. Pour l'optimisation, PGSAM (Recuit Simulé Guidé par Pareto avec Momentum) minimise simultanément l'énergie, la latence et la sous-utilisation des dispositifs. Au moment de l'inférence, la cascade de sélection EAC/ARDE avec arrêt anticipé CSVET fournit une vérification progressive parmi des échantillons répétés. Évalué sur WikiText-103, GSM8K et ARC-Challenge à travers sept familles de modèles (125M à 8B de paramètres, incluant une variante pré-quantifiée), QEIL v2 atteint 75,7% de pass@k à 63,8W (IPW=0,9749), soit une amélioration de 2,86x par rapport à l'inférence standard. Appliqué à un Llama-3.1-8B 4-bit, l'acheminement fondé sur la physique de QEIL v2 atteint un IPW=1,024 à 54,8W – c'est le premier système d'orchestration edge à dépasser la marque de référence empirique IPW=1,0, le gain étant entièrement attribuable à l'allocation de dispositifs adaptative à la charge de QEIL v2 sur un modèle aux besoins réduits en bande passante mémoire. L'énergie totale chute de 75,6% par rapport à la configuration standard, avec une réduction de latence de 38,3%, aucun throttling thermique et une récupération de 100% des fautes sur tous les benchmarks et familles de modèles.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.
PDF21April 11, 2026