ChatPaper.aiChatPaper

Forge-UGC: Motore di ottimizzazione FX e grafo dei registri per compilatore di grafi universale

Forge-UGC: FX optimization and register-graph engine for universal graph compiler

April 14, 2026
Autori: Satyam Kumar, Saurabh Jha
cs.AI

Abstract

Presentiamo Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), un compilatore a quattro fasi per il deployment di transformer su hardware acceleratore eterogeneo, convalidato sull'NPU Intel AI Boost. I framework esistenti come OpenVINO e ONNX Runtime utilizzano spesso pipeline di compilazione opache, offrono una visibilità limitata a livello di passi e presentano una gestione debole dei buffer, il che può portare a costi di compilazione e overhead runtime più elevati. Forge-UGC affronta questi problemi con un design hardware-agnostic che separa la cattura del grafo, l'ottimizzazione, la lowering della rappresentazione intermedia e la schedulazione del backend. La Fase 1 cattura i grafi con `torch.export` a livello degli operatori ATen, supportando componenti moderni dei transformer come gli embedding posizionali rotanti, l'attenzione a query raggruppate e SwiGLU senza decomposizione manuale. La Fase 2 applica sei passi di ottimizzazione: eliminazione del codice morto, eliminazione delle sottoespressioni comuni, constant folding, fusione dell'attenzione, fusione degli operatori e ottimizzazione del layout, riducendo il numero di nodi del grafo dal 14,2% al 21,9%. La Fase 3 effettua la lowering del grafo ottimizzato in una rappresentazione intermedia tipata con assegnazioni esplicite di registri virtuali. La Fase 4 esegue l'analisi di liveness, l'allocazione dei buffer tramite linear-scan (riducendo il numero massimo di buffer del 30-48%) e la schedulazione per affinity del dispositivo (riducendo le transizioni NPU-CPU del 42-65%). Su sei famiglie di modelli, da 125M a 8B di parametri, valutate su WikiText-103 e GLUE, Forge-UGC fornisce una compilazione da 6,9 a 9,2 volte più veloce rispetto a OpenVINO e ONNX Runtime, una latenza di inferenza inferiore dal 18,2% al 35,7% e un consumo energetico per inferenza inferiore dal 30,2% al 40,9%. La fedeltà è preservata, con differenze assolute massime dei logit inferiori a 2,1e-5 e divergenza KL inferiore a 8,4e-9. Introduciamo inoltre il Fusion Gain Ratio, il Compilation Efficiency Index e la profilatura dell'esecuzione per passo, per una valutazione sistematica delle pipeline di compilazione per NPU.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.
PDF12April 22, 2026