ChatPaper.aiChatPaper

Forge-UGC: Motor de optimización FX y gráfico de registros para compilador universal de grafos

Forge-UGC: FX optimization and register-graph engine for universal graph compiler

April 14, 2026
Autores: Satyam Kumar, Saurabh Jha
cs.AI

Resumen

Presentamos Forge-UGC (Motor de Optimización FX y Gráfico de Registros para Compilación Universal de Grafos), un compilador de cuatro fases para el despliegue de transformers en hardware acelerador heterogéneo, validado en Intel AI Boost NPU. Frameworks existentes como OpenVINO y ONNX Runtime suelen utilizar pipelines de compilación opacos, con visibilidad limitada a nivel de passes y una gestión débil de búferes, lo que puede derivar en mayores costes de compilación y sobrecarga en tiempo de ejecución. Forge-UGC aborda estos problemas con un diseño independiente del hardware que separa la captura del grafo, la optimización, el lowering de la representación intermedia y la planificación del backend. La Fase 1 captura los grafos con torch.export a nivel de operador ATen, dando soporte a componentes modernos de transformers como rotary position embeddings, grouped-query attention y SwiGLU sin necesidad de descomposición manual. La Fase 2 aplica seis passes de optimización: eliminación de código inalcanzable, eliminación de subexpresiones comunes, plegado de constantes, fusión de atención, fusión de operadores y optimización de layout, reduciendo el número de nodos del grafo entre un 14,2% y un 21,9%. La Fase 3 transforma el grafo optimizado en una representación intermedia tipada con asignaciones explícitas de registros virtuales. La Fase 4 realiza un análisis de vitalidad (liveness), una asignación de búferes mediante linear-scan —que reduce el número máximo de búferes entre un 30% y un 48%— y una planificación con afinidad de dispositivo, que reduce las transiciones NPU-CPU entre un 42% y un 65%. En seis familias de modelos que van desde 125M hasta 8B de parámetros, evaluadas en WikiText-103 y GLUE, Forge-UGC ofrece una compilación entre 6,9 y 9,2 veces más rápida que OpenVINO y ONNX Runtime, una latencia de inferencia entre un 18,2% y un 35,7% menor, y un consumo de energía por inferencia entre un 30,2% y un 40,9% inferior. Se preserva la fidelidad, con diferencias absolutas máximas en los logits por debajo de 2,1e-5 y una divergencia KL por debajo de 8,4e-9. También introducimos el Índice de Ganancia por Fusión, el Índice de Eficiencia de Compilación y la generación de perfiles de ejecución por pass para la evaluación sistemática de pipelines de compilación en NPU.
English
We present Forge-UGC (FX Optimization and Register-Graph Engine for Universal Graph Compilation), a four-phase compiler for transformer deployment on heterogeneous accelerator hardware, validated on Intel AI Boost NPU. Existing frameworks such as OpenVINO and ONNX Runtime often use opaque compilation pipelines, limited pass-level visibility, and weak buffer management, which can lead to higher compilation cost and runtime overhead. Forge-UGC addresses this with a hardware-agnostic design that separates graph capture, optimization, intermediate representation lowering, and backend scheduling. Phase 1 captures graphs with torch.export at the ATen operator level, supporting modern transformer components such as rotary position embeddings, grouped-query attention, and SwiGLU without manual decomposition. Phase 2 applies six optimization passes: dead code elimination, common subexpression elimination, constant folding, attention fusion, operator fusion, and layout optimization, reducing graph node count by 14.2 to 21.9%. Phase 3 lowers the optimized graph into a typed intermediate representation with explicit virtual register assignments. Phase 4 performs liveness analysis, linear-scan buffer allocation, reducing peak buffer count by 30 to 48%, and device-affinity scheduling, reducing NPU-CPU transitions by 42 to 65%. Across six model families ranging from 125M to 8B parameters, evaluated on WikiText-103 and GLUE, Forge-UGC delivers 6.9 to 9.2x faster compilation than OpenVINO and ONNX Runtime, 18.2 to 35.7% lower inference latency, and 30.2 to 40.9% lower energy per inference. Fidelity is preserved, with max absolute logit differences below 2.1e-5 and KL divergence below 8.4e-9. We also introduce Fusion Gain Ratio, Compilation Efficiency Index, and per-pass execution profiling for systematic evaluation of NPU compilation pipelines.
PDF12April 22, 2026