QEIL v2:屋根線理論に基づくパレート最適エネルギーモデリングと多目的オーケストレーションによるエッジインテリジェンスのための異種計算
QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration
April 5, 2026
著者: Satyam Kumar, Saurabh Jha
cs.AI
要旨
異種エッジデバイス上での大規模言語モデル(LLM)展開には、エネルギー効率、推論品質、信頼性を同時に最適化するフレームワークが求められる。我々の先行研究QEIL v1(Kumar & Jha, 2026)は4.82倍のIPW改善を達成したが、静的な効率係数、貪欲法による最適化、検証されていない候補選択に依存していた。QEIL v2は全ての静的ヒューリスティックを、物理学に基づく実行時適応型モデルで置き換える。本論文では3つのデバイス・ワークロード指標を導入する:DASI(ルーフラインモデル由来の計算利用率)、CPQ(割当理論に基づくメモリ負荷)、Phi(CMOS漏洩電流の物理学に基づく熱収率)であり、全ての係数が半導体物理学に遡及可能な統一エネルギー方程式を構成する。最適化には、PGSAM(運動量付きパレート誘導シミュレーテッド・アニーリング)を採用し、エネルギー、レイテンシ、デバイス未利用率を同時に最小化する。推論時には、EAC/ARDE選択カスケードとCSVET早期打ち切りにより、反復サンプル間での段階的検証を実現する。WikiText-103、GSM8K、ARC-Challengeを用い、7つのモデルファミリ(125M-8Bパラメータ、事前量子化版を含む)で評価した結果、QEIL v2は63.8Wで75.7% pass@k(IPW=0.9749)を達成し、標準推論比2.86倍の改善を示した。4ビット量子化版Llama-3.1-8Bに適用した場合、QEIL v2の物理学に基づくルーティングは54.8WでIPW=1.024を達成——IPW=1.0という経験的参照指標を超えた初のエッジオーケストレーションシステムであり、この改善はメモリ帯域要求が低減されたモデルに対するQEIL v2のワークロード適応型デバイス割当に完全に起因する。全ベンチマーク及びモデルファミリにおいて、標準推論比で総エネルギー消費75.6%削減、レイテンシ38.3%低減、サーマルスロットリングゼロ、100%の故障回復を実現した。
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.