ChatPaper.aiChatPaper

QEIL v2: 지붕선 기반 파레토 최적 에너지 모델링 및 다중 목표 오케스트레이션을 통한 이종 컴퓨팅 기반 에지 인텔리전스

QEIL v2: Heterogeneous Computing for Edge Intelligence via Roofline-Derived Pareto-Optimal Energy Modeling and Multi-Objective Orchestration

April 5, 2026
저자: Satyam Kumar, Saurabh Jha
cs.AI

초록

이기종 에지 디바이스에 대규모 언어 모델(LLM)을 배포하려면 에너지 효율, 추론 품질, 신뢰성을 함께 최적화하는 프레임워크가 필요합니다. 기존 QEIL v1(Kumar & Jha, 2026)은 4.82배의 IPW 향상을 달성했지만 정적 효율 계수, 탐욕적 최적화, 검증되지 않은 후보 선택에 의존했습니다. QEIL v2는 모든 정적 휴리스틱을 물리 기반의 런타임 적응형 모델로 대체합니다. 본 연구에서는 세 가지 디바이스-워크로드 메트릭인 DASI(루프라인 기반 컴퓨팅 활용도), CPQ(할당 이론 기반 메모리 압력), Phi(CMOS 누설 전류 물리학 기반 열 수율)를 도입하여 모든 계수가 반도체 물리학에 추적 가능한 통합 에너지 방정식을 구성합니다. 최적화를 위해 PGSAM(모멘텀 기반 파레토 유도 시뮬레이티드 어닐링)을 통해 에너지, 지연 시간, 디바이스 미활용률을 동시에 최소화합니다. 추론 시점에는 EAC/ARDE 선택 캐스케이드와 CSVET 조기 중단이 반복 샘플 간 점진적 검증을 제공합니다. WikiText-103, GSM8K, ARC-Challenge 벤치마크에서 7개 모델 패밀리(125M-8B 파라미터, 사전 양자화 변형 포함)로 평가한 결과, QEIL v2는 63.8W에서 75.7% pass@k(IPW=0.9749)를 달성하여 표준 추론 대비 2.86배 향상되었습니다. 4비트 Llama-3.1-8B에 적용 시 QEIL v2의 물리 기반 라우팅은 54.8W에서 IPW=1.024를 기록하며, IPW=1.0 경험적 기준치를 초월한 최초의 에지 오케스트레이션 시스템으로 확인되었으며, 이 향상은 메모리 대역폭 요구사항이 감소된 모델에서 QEIL v2의 워크로드 적응형 디바이스 할당에 기인합니다. 표준 대비 총 에너지는 75.6% 감소, 지연 시간은 38.3% 단축되었으며, 모든 벤치마크 및 모델 패밀리에서 열 스로틀링 제로, 100% 장애 복구를 달성했습니다.
English
Deploying large language models (LLMs) on heterogeneous edge devices demands frameworks that jointly optimize energy efficiency, inference quality, and reliability. Our prior QEIL v1 (Kumar & Jha, 2026) achieved 4.82x IPW improvement but relied on static efficiency factors, greedy optimization, and unverified candidate selection. QEIL v2 replaces every static heuristic with physics-grounded, runtime-adaptive models. We introduce three device-workload metrics: DASI (roofline-derived compute utilization), CPQ (memory pressure from allocation theory), and Phi (thermal yield from CMOS leakage physics), forming a unified energy equation with every coefficient traceable to semiconductor physics. For optimization, PGSAM (Pareto-Guided Simulated Annealing with Momentum) simultaneously minimizes energy, latency, and device underutilization. At inference time, the EAC/ARDE selection cascade with CSVET early stopping provides progressive verification among repeated samples. Evaluated on WikiText-103, GSM8K, and ARC-Challenge across seven model families (125M-8B parameters, including one pre-quantized variant), QEIL v2 achieves 75.7% pass@k at 63.8W (IPW=0.9749), a 2.86x improvement over standard inference. When applied to a 4-bit Llama-3.1-8B, QEIL v2's physics-grounded routing achieves IPW=1.024 at 54.8W -- the first edge orchestration system to surpass the IPW=1.0 empirical reference mark, with the gain attributable entirely to QEIL v2's workload-adaptive device allocation on a model with reduced memory bandwidth requirements. Total energy drops 75.6% vs. standard with 38.3% latency reduction, zero thermal throttling, and 100% fault recovery across all benchmarks and model families.
PDF21April 11, 2026