Forge-UGC : Moteur d'optimisation FX et de graphes de registres pour compilateur de graphes universel
Forge-UGC: FX optimization and register-graph engine for universal graph compiler
April 14, 2026
Auteurs: Satyam Kumar, Saurabh Jha
cs.AI
Résumé
Nous présentons Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), un compilateur en quatre phases pour le déploiement de modèles transformer sur du matériel accélérateur hétérogène, validé sur le NPU Intel AI Boost. Les frameworks existants tels qu'OpenVINO et ONNX Runtime utilisent souvent des pipelines de compilation opaques, offrent une visibilité limitée au niveau des passes et une gestion faible des tampons, ce qui peut entraîner un coût de compilation et une surcharge d'exécution plus élevés. Forge-UGC résout ce problème avec une conception agnostique au matériel qui sépare la capture de graphe, l'optimisation, l'abaissement de la représentation intermédiaire et l'ordonnancement backend. La phase 1 capture les graphes avec torch.export au niveau des opérateurs ATen, prenant en charge les composants modernes des transformers tels que les embeddings de position rotatifs, l'attention à requêtes groupées et SwiGLU sans décomposition manuelle. La phase 2 applique six passes d'optimisation : l'élimination du code mort, l'élimination des sous-expressions communes, le pliage des constantes, la fusion de l'attention, la fusion d'opérateurs et l'optimisation de la disposition, réduisant le nombre de nœuds du graphe de 14,2 à 21,9 %. La phase 3 abaisse le graphe optimisé en une représentation intermédiaire typée avec des assignations explicites de registres virtuels. La phase 4 effectue une analyse de la durée de vie, une allocation de tampons par balayage linéaire réduisant le nombre maximal de tampons de 30 à 48 %, et un ordonnancement par affinité de périphérique, réduisant les transitions NPU-CPU de 42 à 65 %. Sur six familles de modèles allant de 125M à 8B de paramètres, évaluées sur WikiText-103 et GLUE, Forge-UGC offre une compilation 6,9 à 9,2 fois plus rapide qu'OpenVINO et ONNX Runtime, une latence d'inférence réduite de 18,2 à 35,7 % et une énergie par inférence réduite de 30,2 à 40,9 %. La fidélité est préservée, avec des différences de logits absolues maximales inférieures à 2,1e-5 et une divergence KL inférieure à 8,4e-9. Nous introduisons également le Ratio de Gain de Fusion, l'Indice d'Efficacité de Compilation et le profilage d'exécution par passe pour l'évaluation systématique des pipelines de compilation NPU.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.