Retentive Netwerk: Een Opvolger van Transformer voor Grote Taalmodellen
Retentive Network: A Successor to Transformer for Large Language Models
July 17, 2023
Auteurs: Yutao Sun, Li Dong, Shaohan Huang, Shuming Ma, Yuqing Xia, Jilong Xue, Jianyong Wang, Furu Wei
cs.AI
Samenvatting
In dit werk stellen we Retentive Network (RetNet) voor als een fundamentele architectuur voor grote taalmodelen, waarbij tegelijkertijd trainingparallelisme, goedkope inferentie en goede prestaties worden bereikt. We leiden theoretisch de verbinding tussen recurrentie en aandacht af. Vervolgens introduceren we het retentiemechanisme voor sequentiemodellering, dat drie rekenparadigma's ondersteunt, namelijk parallel, recurrent en chunkwise recurrent. Specifiek maakt de parallelle representatie trainingparallelisme mogelijk. De recurrentie representatie maakt goedkope O(1)-inferentie mogelijk, wat de decodeerdoorvoer, latentie en GPU-geheugen verbetert zonder in te leveren op prestaties. De chunkwise recurrent representatie vergemakkelijkt efficiënte modellering van lange sequenties met lineaire complexiteit, waarbij elke chunk parallel wordt gecodeerd terwijl de chunks recurrent worden samengevat. Experimentele resultaten voor taalmodeling laten zien dat RetNet gunstige schaalresultaten, parallelle training, goedkope implementatie en efficiënte inferentie bereikt. Deze intrigerende eigenschappen maken RetNet tot een sterke opvolger van Transformer voor grote taalmodelen. De code zal beschikbaar zijn op https://aka.ms/retnet.
English
In this work, we propose Retentive Network (RetNet) as a foundation
architecture for large language models, simultaneously achieving training
parallelism, low-cost inference, and good performance. We theoretically derive
the connection between recurrence and attention. Then we propose the retention
mechanism for sequence modeling, which supports three computation paradigms,
i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel
representation allows for training parallelism. The recurrent representation
enables low-cost O(1) inference, which improves decoding throughput, latency,
and GPU memory without sacrificing performance. The chunkwise recurrent
representation facilitates efficient long-sequence modeling with linear
complexity, where each chunk is encoded parallelly while recurrently
summarizing the chunks. Experimental results on language modeling show that
RetNet achieves favorable scaling results, parallel training, low-cost
deployment, and efficient inference. The intriguing properties make RetNet a
strong successor to Transformer for large language models. Code will be
available at https://aka.ms/retnet.