RWKV-7 "Goose" met Expressieve Dynamische StaatsevolutieRWKV-7 "Goose" with Expressive Dynamic State Evolution
We presenteren RWKV-7 "Goose", een nieuwe architectuur voor sequentiemodellering, samen met vooraf getrainde taalmodelen die een nieuwe staat-van-de-kunst vestigen in downstream prestaties op het niveau van 3 miljard parameters voor meertalige taken, en die de huidige staat-van-de-kunst prestaties voor de Engelse taal evenaren, ondanks dat ze getraind zijn op aanzienlijk minder tokens dan andere top 3B-modellen. Desalniettemin vereisen RWKV-7-modellen slechts constant geheugengebruik en constante inferentietijd per token. RWKV-7 introduceert een nieuw gegeneraliseerde formulering van de delta-regel met vectorwaardige gating en in-context leersnelheden, evenals een versoepelde waardevervangingsregel. We tonen aan dat RWKV-7 staatstracking kan uitvoeren en alle reguliere talen kan herkennen, terwijl de paralleliseerbaarheid van training behouden blijft. Dit overtreft de mogelijkheden van Transformers onder standaard complexiteitsveronderstellingen, die beperkt zijn tot TC^0. Om de taalmodelleercapaciteit van RWKV-7 te demonstreren, presenteren we ook een uitgebreid open source meertalig corpus van 3,1 biljoen tokens, en trainen we vier RWKV-7-modellen variërend van 0,19 miljard tot 2,9 miljard parameters op deze dataset. Om openheid, reproductie en adoptie te bevorderen, maken we onze modellen en datasetcomponentenlijst beschikbaar op https://huggingface.co/RWKV, en onze trainings- en inferentiecode op https://github.com/RWKV/RWKV-LM, allemaal onder de Apache 2.0-licentie.