QEIL v2: Computação Heterogênea para Inteligência na Borda via Modelagem de Energia Pareto-Otimal Derivada de Roofline e Orquestração Multiobjetivo
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
Autores: Satyam Kumar, Saurabh Jha
cs.AI
Resumo
A implantação de grandes modelos de linguagem (LLMs) em dispositivos de *edge* heterogéneos exige estruturas que otimizem conjuntamente a eficiência energética, a qualidade da inferência e a confiabilidade. A nossa versão anterior, QEIL v1 (Kumar & Jha, 2026), alcançou uma melhoria de 4,82x no IPW, mas dependia de fatores de eficiência estáticos, otimização gananciosa e seleção não verificada de candidatos. O QEIL v2 substitui todas as heurísticas estáticas por modelos fundamentados na física e adaptativos em tempo de execução. Introduzimos três métricas de dispositivo-carga de trabalho: DASI (utilização de computação derivada do modelo *roofline*), CPQ (pressão de memória da teoria de alocação) e Phi (rendimento térmico da física de fugas CMOS), formando uma equação de energia unificada com cada coeficiente rastreável à física dos semicondutores. Para otimização, o PGSAM (Recozimento Simulado Guiado por Pareto com Momento) minimiza simultaneamente a energia, a latência e a subutilização do dispositivo. No momento da inferência, a cascata de seleção EAC/ARDE com paragem antecipada CSVET fornece verificação progressiva entre amostras repetidas. Avaliado no WikiText-103, GSM8K e ARC-Challenge em sete famílias de modelos (125M-8B parâmetros, incluindo uma variante pré-quantizada), o QEIL v2 alcança 75,7% de pass@k a 63,8W (IPW=0,9749), uma melhoria de 2,86x em relação à inferência padrão. Quando aplicado a um Llama-3.1-8B de 4 bits, o encaminhamento fundamentado na física do QEIL v2 atinge IPW=1,024 a 54,8W — sendo o primeiro sistema de orquestração de *edge* a superar a marca de referência empírica IPW=1,0, com o ganho atribuível inteiramente à alocação de dispositivos adaptativa à carga de trabalho do QEIL v2 num modelo com requisitos de largura de banda de memória reduzidos. A energia total diminui 75,6% em comparação com o padrão, com uma redução de latência de 38,3%, zero *throttling* térmico e recuperação de falhas de 100% em todos os *benchmarks* e famílias de modelos.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.