QEIL v2: Computación Heterogénea para Inteligencia en el Edge mediante Modelado Energético Pareto-Optimal Derivado de Roofline y Orquestación Multiobjetivo
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
Autores: Satyam Kumar, Saurabh Jha
cs.AI
Resumen
El despliegue de grandes modelos de lenguaje (LLM) en dispositivos edge heterogéneos exige frameworks que optimicen conjuntamente la eficiencia energética, la calidad de la inferencia y la fiabilidad. Nuestro anterior QEIL v1 (Kumar & Jha, 2026) logró una mejora de 4.82x en IPW, pero dependía de factores de eficiencia estáticos, optimización greedy y selección de candidatos no verificada. QEIL v2 reemplaza cada heurística estática con modelos fundamentados en la física y adaptativos en tiempo de ejecución. Introducimos tres métricas de dispositivo-carga de trabajo: DASI (utilización computacional derivada del modelo roofline), CPQ (presión de memoria basada en la teoría de asignación) y Phi (rendimiento térmico a partir de la física de fugas CMOS), formando una ecuación de energía unificada cuyos coeficientes son trazables a la física de semiconductores. Para la optimización, PGSAM (Recocido Simulado Guiado por Pareto con Momento) minimiza simultáneamente la energía, la latencia y la infrautilización del dispositivo. Durante la inferencia, la cascada de selección EAC/ARDE con parada temprana CSVET proporciona verificación progresiva entre muestras repetidas. Evaluado en WikiText-103, GSM8K y ARC-Challenge en siete familias de modelos (125M-8B parámetros, incluyendo una variante pre-cuantizada), QEIL v2 alcanza un 75.7% pass@k a 63.8W (IPW=0.9749), una mejora de 2.86x sobre la inferencia estándar. Cuando se aplica a un Llama-3.1-8B de 4 bits, el enrutamiento basado en física de QEIL v2 logra un IPW=1.024 a 54.8W, siendo el primer sistema de orquestación edge en superar la marca de referencia empírica IPW=1.0, ganancia atribuible enteramente a la asignación de dispositivos adaptativa a la carga de trabajo en un modelo con requisitos reducidos de ancho de banda de memoria. La energía total se reduce un 75.6% frente al estándar, con una reducción de latencia del 38.3%, cero estrangulamiento térmico y una recuperación de fallos del 100% en todos los benchmarks y familias de modelos.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.