FLARE: Motore di Routing dell'Attenzione a Basso Rango Veloce
FLARE: Fast Low-rank Attention Routing Engine
August 18, 2025
Autori: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara
cs.AI
Abstract
La complessità quadratica del meccanismo di self-attention ne limita l'applicabilità e la scalabilità su mesh non strutturate di grandi dimensioni. Introduciamo Fast Low-rank Attention Routing Engine (FLARE), un meccanismo di self-attention a complessità lineare che instrada l'attenzione attraverso sequenze latenti di lunghezza fissa. Ogni testa di attenzione esegue una comunicazione globale tra N token proiettando la sequenza di input su una sequenza latente di lunghezza fissa di M ll N token utilizzando token query apprendibili. Instradando l'attenzione attraverso una sequenza bottleneck, FLARE apprende una forma di attenzione a basso rango che può essere applicata con un costo di O(NM). FLARE non solo scala a dimensioni di problemi senza precedenti, ma offre anche una precisione superiore rispetto ai surrogati neurali PDE all'avanguardia su diversi benchmark. Rilasciamo inoltre un nuovo dataset di manifattura additiva per stimolare ulteriori ricerche. Il nostro codice è disponibile all'indirizzo https://github.com/vpuri3/FLARE.py.
English
The quadratic complexity of self-attention limits its applicability and
scalability on large unstructured meshes. We introduce Fast Low-rank Attention
Routing Engine (FLARE), a linear complexity self-attention mechanism that
routes attention through fixed-length latent sequences. Each attention head
performs global communication among N tokens by projecting the input sequence
onto a fixed length latent sequence of M ll N tokens using learnable query
tokens. By routing attention through a bottleneck sequence, FLARE learns a
low-rank form of attention that can be applied at O(NM) cost. FLARE not only
scales to unprecedented problem sizes, but also delivers superior accuracy
compared to state-of-the-art neural PDE surrogates across diverse benchmarks.
We also release a new additive manufacturing dataset to spur further research.
Our code is available at https://github.com/vpuri3/FLARE.py.