Forge-UGC: Otimização de FX e mecanismo de grafo de registros para compilador universal de grafos
Forge-UGC: FX optimization and register-graph engine for universal graph compiler
April 14, 2026
Autores: Satyam Kumar, Saurabh Jha
cs.AI
Resumo
Apresentamos o Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), um compilador de quatro fases para a implantação de modelos *transformer* em hardware acelerador heterogêneo, validado no NPU Intel AI Boost. Frameworks existentes, como OpenVINO e ONNX Runtime, frequentemente utilizam *pipelines* de compilação opacos, com visibilidade limitada a nível de passos e gerenciamento fraco de *buffers*, o que pode resultar em maior custo de compilação e sobrecarga em tempo de execução. O Forge-UGC aborda estas limitações com um projeto independente de hardware que separa a captura do grafo, a otimização, a redução da representação intermediária e o agendamento do *backend*. A Fase 1 captura grafos com `torch.export` ao nível do operador ATen, suportando componentes modernos de *transformers*, como *rotary position embeddings*, *grouped-query attention* e SwiGLU, sem decomposição manual. A Fase 2 aplica seis passos de otimização: eliminação de código morto, eliminação de subexpressões comuns, dobramento de constantes, fusão de *attention*, fusão de operadores e otimização de *layout*, reduzindo a contagem de nós do grafo em 14,2 a 21,9%. A Fase 3 reduz o grafo otimizado para uma representação intermediária tipada com atribuições explícitas de registros virtuais. A Fase 4 realiza análise de vivacidade, alocação de *buffers* por *linear-scan* — reduzindo a contagem máxima de *buffers* em 30 a 48% — e agendamento por afinidade de dispositivo, reduzindo as transições NPU-CPU em 42 a 65%. Em seis famílias de modelos, variando de 125M a 8B de parâmetros, avaliadas no WikiText-103 e GLUE, o Forge-UGC proporciona uma compilação 6,9 a 9,2 vezes mais rápida que o OpenVINO e o ONNX Runtime, uma latência de inferência 18,2 a 35,7% menor e um consumo de energia por inferência 30,2 a 40,9% menor. A fidelidade é preservada, com diferenças absolutas máximas nos *logits* abaixo de 2,1e-5 e divergência KL abaixo de 8,4e-9. Também introduzimos o *Fusion Gain Ratio*, o *Compilation Efficiency Index* e a análise de execução por passo para avaliação sistemática de *pipelines* de compilação para NPUs.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.