Forge-UGC: FX-Optimierung und Register-Graph-Engine für universellen Graph-Compiler
Forge-UGC: FX optimization and register-graph engine for universal graph compiler
April 14, 2026
Autoren: Satyam Kumar, Saurabh Jha
cs.AI
Zusammenfassung
Wir stellen Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation) vor, einen Compiler mit vier Phasen für das Deployment von Transformer-Modellen auf heterogener Beschleuniger-Hardware, validiert auf Intel AI Boost NPU. Bestehende Frameworks wie OpenVINO und ONNX Runtime verwenden oft undurchsichtige Compiler-Pipelines, bieten begrenzte Sichtbarkeit auf Pass-Ebene und ein schwaches Puffer-Management, was zu höheren Compiler-Kosten und Laufzeit-Overhead führen kann. Forge-UGC adressiert diese Probleme durch einen hardware-unabhängigen Entwurf, der Graph-Erfassung, Optimierung, Senkung der Zwischendarstellung und Backend-Scheduling trennt. Phase 1 erfasst Graphen mit torch.export auf der Ebene der ATen-Operatoren und unterstützt moderne Transformer-Komponenten wie rotary Position Embeddings, grouped-query Attention und SwiGLU ohne manuelle Dekomposition. Phase 2 wendet sechs Optimierungs-Passes an: Eliminierung von totem Code, Eliminierung gemeinsamer Teilausdrücke, Konstantenfaltung, Attention-Fusion, Operator-Fusion und Layout-Optimierung, wodurch die Anzahl der Graph-Knoten um 14,2 % bis 21,9 % reduziert wird. Phase 3 senkt den optimierten Graphen in eine typisierte Zwischendarstellung mit expliziten virtuellen Register-Zuweisungen ab. Phase 4 führt eine Liveness-Analyse, eine Puffer-Zuweisung mittels Linear-Scan (Reduktion der maximalen Puffer-Anzahl um 30 % bis 48 %) und ein Device-Affinity-Scheduling durch (Reduktion der NPU-CPU-Übergänge um 42 % bis 65 %). Über sechs Modellfamilien mit 125 Mio. bis 8 Mrd. Parametern, evaluiert auf WikiText-103 und GLUE, erreicht Forge-UGC eine 6,9- bis 9,2-fach schnellere Kompilierung als OpenVINO und ONNX Runtime, eine 18,2 % bis 35,7 % geringere Inferenz-Latenz und einen 30,2 % bis 40,9 % niedrigeren Energieverbrauch pro Inferenz. Die Genauigkeit bleibt erhalten, mit maximalen absoluten Logit-Differenzen unter 2,1e-5 und einer KL-Divergenz unter 8,4e-9. Wir führen zudem das Fusion Gain Ratio, den Compilation Efficiency Index und eine Ausführungs-Profilierung pro Pass für die systematische Evaluation von NPU-Compiler-Pipelines ein.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.