Retentive Netwerk: Een Opvolger van Transformer voor Grote Taalmodellen

Samenvatting

In dit werk stellen we Retentive Network (RetNet) voor als een fundamentele architectuur voor grote taalmodelen, waarbij tegelijkertijd trainingparallelisme, goedkope inferentie en goede prestaties worden bereikt. We leiden theoretisch de verbinding tussen recurrentie en aandacht af. Vervolgens introduceren we het retentiemechanisme voor sequentiemodellering, dat drie rekenparadigma's ondersteunt, namelijk parallel, recurrent en chunkwise recurrent. Specifiek maakt de parallelle representatie trainingparallelisme mogelijk. De recurrentie representatie maakt goedkope O(1)-inferentie mogelijk, wat de decodeerdoorvoer, latentie en GPU-geheugen verbetert zonder in te leveren op prestaties. De chunkwise recurrent representatie vergemakkelijkt efficiënte modellering van lange sequenties met lineaire complexiteit, waarbij elke chunk parallel wordt gecodeerd terwijl de chunks recurrent worden samengevat. Experimentele resultaten voor taalmodeling laten zien dat RetNet gunstige schaalresultaten, parallelle training, goedkope implementatie en efficiënte inferentie bereikt. Deze intrigerende eigenschappen maken RetNet tot een sterke opvolger van Transformer voor grote taalmodelen. De code zal beschikbaar zijn op https://aka.ms/retnet.

English

In this work, we propose Retentive Network (RetNet) as a foundation architecture for large language models, simultaneously achieving training parallelism, low-cost inference, and good performance. We theoretically derive the connection between recurrence and attention. Then we propose the retention mechanism for sequence modeling, which supports three computation paradigms, i.e., parallel, recurrent, and chunkwise recurrent. Specifically, the parallel representation allows for training parallelism. The recurrent representation enables low-cost O(1) inference, which improves decoding throughput, latency, and GPU memory without sacrificing performance. The chunkwise recurrent representation facilitates efficient long-sequence modeling with linear complexity, where each chunk is encoded parallelly while recurrently summarizing the chunks. Experimental results on language modeling show that RetNet achieves favorable scaling results, parallel training, low-cost deployment, and efficient inference. The intriguing properties make RetNet a strong successor to Transformer for large language models. Code will be available at https://aka.ms/retnet.

Retentive Netwerk: Een Opvolger van Transformer voor Grote Taalmodellen

Retentive Network: A Successor to Transformer for Large Language Models

Samenvatting

Support