FLARE: 고속 저순위 어텐션 라우팅 엔진
FLARE: Fast Low-rank Attention Routing Engine
August 18, 2025
저자: Vedant Puri, Aditya Joglekar, Kevin Ferguson, Yu-hsuan Chen, Yongjie Jessica Zhang, Levent Burak Kara
cs.AI
초록
자기 주의(self-attention)의 이차 복잡도는 대규모 비정형 메시에서의 적용 가능성과 확장성을 제한합니다. 우리는 고정 길이 잠재 시퀀스를 통해 주의를 라우팅하는 선형 복잡도의 자기 주의 메커니즘인 Fast Low-rank Attention Routing Engine(FLARE)을 소개합니다. 각 주의 헤드는 학습 가능한 쿼리 토큰을 사용하여 입력 시퀀스를 M ≪ N 토큰의 고정 길이 잠재 시퀀스로 투영함으로써 N개의 토큰 간 전역 통신을 수행합니다. FLARE는 병목 시퀀스를 통해 주의를 라우팅함으로써 O(NM) 비용으로 적용 가능한 저순위 형태의 주의를 학습합니다. FLARE는 전례 없는 문제 규모로 확장할 수 있을 뿐만 아니라 다양한 벤치마크에서 최신 신경망 PDE 대체 모델보다 우수한 정확도를 제공합니다. 또한, 추가적인 연구를 촉진하기 위해 새로운 적층 제조 데이터셋을 공개합니다. 우리의 코드는 https://github.com/vpuri3/FLARE.py에서 확인할 수 있습니다.
English
The quadratic complexity of self-attention limits its applicability and
scalability on large unstructured meshes. We introduce Fast Low-rank Attention
Routing Engine (FLARE), a linear complexity self-attention mechanism that
routes attention through fixed-length latent sequences. Each attention head
performs global communication among N tokens by projecting the input sequence
onto a fixed length latent sequence of M ll N tokens using learnable query
tokens. By routing attention through a bottleneck sequence, FLARE learns a
low-rank form of attention that can be applied at O(NM) cost. FLARE not only
scales to unprecedented problem sizes, but also delivers superior accuracy
compared to state-of-the-art neural PDE surrogates across diverse benchmarks.
We also release a new additive manufacturing dataset to spur further research.
Our code is available at https://github.com/vpuri3/FLARE.py.