FLARE: Schnelle Low-Rank-Attention-Routing-Engine
FLARE: Fast Low-rank Attention Routing Engine
August 18, 2025
papers.authors: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara
cs.AI
papers.abstract
Die quadratische Komplexität von Self-Attention begrenzt deren Anwendbarkeit und Skalierbarkeit auf großen unstrukturierten Netzen. Wir stellen Fast Low-rank Attention Routing Engine (FLARE) vor, einen Self-Attention-Mechanismus mit linearer Komplexität, der die Aufmerksamkeit durch feste latente Sequenzen lenkt. Jeder Attention-Head führt eine globale Kommunikation zwischen N Tokens durch, indem die Eingabesequenz auf eine feste latente Sequenz von M ll N Tokens projiziert wird, wobei lernbare Query-Tokens verwendet werden. Durch die Lenkung der Aufmerksamkeit über eine Engpasssequenz lernt FLARE eine niedrigrangige Form der Aufmerksamkeit, die mit O(NM)-Kosten angewendet werden kann. FLARE skaliert nicht nur auf bisher unerreichte Problemgrößen, sondern liefert auch eine überlegene Genauigkeit im Vergleich zu modernsten neuronalen PDE-Surrogaten über diverse Benchmarks hinweg. Wir veröffentlichen zudem einen neuen Datensatz zur additiven Fertigung, um weitere Forschungen anzuregen. Unser Code ist unter https://github.com/vpuri3/FLARE.py verfügbar.
English
The quadratic complexity of self-attention limits its applicability and
scalability on large unstructured meshes. We introduce Fast Low-rank Attention
Routing Engine (FLARE), a linear complexity self-attention mechanism that
routes attention through fixed-length latent sequences. Each attention head
performs global communication among N tokens by projecting the input sequence
onto a fixed length latent sequence of M ll N tokens using learnable query
tokens. By routing attention through a bottleneck sequence, FLARE learns a
low-rank form of attention that can be applied at O(NM) cost. FLARE not only
scales to unprecedented problem sizes, but also delivers superior accuracy
compared to state-of-the-art neural PDE surrogates across diverse benchmarks.
We also release a new additive manufacturing dataset to spur further research.
Our code is available at https://github.com/vpuri3/FLARE.py.