Forge-UGC: оптимизация эффектов и регистрово-графовый движок для универсального графового компилятора
Forge-UGC: FX optimization and register-graph engine for universal graph compiler
April 14, 2026
Авторы: Satyam Kumar, Saurabh Jha
cs.AI
Аннотация
Мы представляем Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation) — компилятор из четырех фаз для развертывания трансформеров на гетерогенных аппаратных ускорителях, протестированный на NPU Intel AI Boost. Существующие фреймворки, такие как OpenVINO и ONNX Runtime, часто используют непрозрачные конвейеры компиляции, ограниченную видимость на уровне проходов и слабое управление буферами, что может приводить к высоким затратам на компиляцию и накладным расходам времени выполнения. Forge-UGC решает эти проблемы благодаря аппаратно-независимому дизайну, который разделяет захват графа, оптимизацию, понижение промежуточного представления и планирование для бэкенда. Фаза 1 захватывает графы с помощью torch.export на уровне операторов ATen, поддерживая современные компоненты трансформеров, такие как ротационные позиционные эмбеддинги, групповое квари-внимание и SwiGLU, без ручной декомпозиции. Фаза 2 применяет шесть проходов оптимизации: удаление мертвого кода, устранение общих подвыражений, свертку констант, слияние внимания, слияние операторов и оптимизацию расположения данных, сокращая количество узлов графа на 14,2–21,9%. Фаза 3 понижает оптимизированный граф в типизированное промежуточное представление с явными назначениями виртуальных регистров. Фаза 4 выполняет анализ активности, линейное сканирующее распределение буферов (сокращая пиковое количество буферов на 30–48%) и планирование с учетом устройства (сокращая переходы NPU-CPU на 42–65%). На шести семействах моделей от 125 млн до 8 млрд параметров, оцененных на WikiText-103 и GLUE, Forge-UGC демонстрирует ускорение компиляции в 6,9–9,2 раза по сравнению с OpenVINO и ONNX Runtime, снижение задержки вывода на 18,2–35,7% и снижение энергии на вывод на 30,2–40,9%. Точность сохраняется: максимальные абсолютные различия логитов ниже 2,1e-5, а расхождение Кульбака-Лейблера ниже 8,4e-9. Мы также вводим коэффициент выигрыша от слияния (Fusion Gain Ratio), индекс эффективности компиляции (Compilation Efficiency Index) и профилирование выполнения для каждого прохода для систематической оценки конвейеров компиляции NPU.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.