QEIL v2: Computación Heterogénea para Inteligencia en el Edge mediante Modelado Energético Pareto-Optimal Derivado de Roofline y Orquestación Multiobjetivo

Resumen

El despliegue de grandes modelos de lenguaje (LLM) en dispositivos edge heterogéneos exige frameworks que optimicen conjuntamente la eficiencia energética, la calidad de la inferencia y la fiabilidad. Nuestro anterior QEIL v1 (Kumar & Jha, 2026) logró una mejora de 4.82x en IPW, pero dependía de factores de eficiencia estáticos, optimización greedy y selección de candidatos no verificada. QEIL v2 reemplaza cada heurística estática con modelos fundamentados en la física y adaptativos en tiempo de ejecución. Introducimos tres métricas de dispositivo-carga de trabajo: DASI (utilización computacional derivada del modelo roofline), CPQ (presión de memoria basada en la teoría de asignación) y Phi (rendimiento térmico a partir de la física de fugas CMOS), formando una ecuación de energía unificada cuyos coeficientes son trazables a la física de semiconductores. Para la optimización, PGSAM (Recocido Simulado Guiado por Pareto con Momento) minimiza simultáneamente la energía, la latencia y la infrautilización del dispositivo. Durante la inferencia, la cascada de selección EAC/ARDE con parada temprana CSVET proporciona verificación progresiva entre muestras repetidas. Evaluado en WikiText-103, GSM8K y ARC-Challenge en siete familias de modelos (125M-8B parámetros, incluyendo una variante pre-cuantizada), QEIL v2 alcanza un 75.7% pass@k a 63.8W (IPW=0.9749), una mejora de 2.86x sobre la inferencia estándar. Cuando se aplica a un Llama-3.1-8B de 4 bits, el enrutamiento basado en física de QEIL v2 logra un IPW=1.024 a 54.8W, siendo el primer sistema de orquestación edge en superar la marca de referencia empírica IPW=1.0, ganancia atribuible enteramente a la asignación de dispositivos adaptativa a la carga de trabajo en un modelo con requisitos reducidos de ancho de banda de memoria. La energía total se reduce un 75.6% frente al estándar, con una reducción de latencia del 38.3%, cero estrangulamiento térmico y una recuperación de fallos del 100% en todos los benchmarks y familias de modelos.

English

Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.

QEIL v2: Computación Heterogénea para Inteligencia en el Edge mediante Modelado Energético Pareto-Optimal Derivado de Roofline y Orquestación Multiobjetivo

QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

Resumen

Support