Apprentissage en ChaĂźne de ModĂšles pour les ModĂšles de LangageChain-of-Model Learning for Language Model
Dans cet article, nous proposons un nouveau paradigme d'apprentissage, appelé Chaßne-de-ModÚles (Chain-of-Model, CoM), qui intÚgre la relation causale dans les états cachés de chaque couche sous forme de chaßne, introduisant ainsi une grande efficacité de mise à l'échelle lors de l'entraßnement du modÚle et une flexibilité accrue lors de l'inférence. Nous introduisons le concept de Chaßne-de-Représentation (Chain-of-Representation, CoR), qui formule les états cachés de chaque couche comme une combinaison de plusieurs sous-représentations (c'est-à -dire des chaßnes) au niveau de la dimension cachée. Dans chaque couche, chaque chaßne des représentations de sortie ne peut visualiser que toutes les chaßnes qui la précÚdent dans les représentations d'entrée. Par conséquent, le modÚle construit sur le cadre CoM peut progressivement augmenter sa taille en ajoutant des chaßnes basées sur les modÚles précédents (c'est-à -dire les chaßnes), et offrir plusieurs sous-modÚles de tailles variables pour une inférence élastique en utilisant un nombre différent de chaßnes. Sur la base de ce principe, nous concevons la Chaßne-de-ModÚle-de-Langage (Chain-of-Language-Model, CoLM), qui intÚgre l'idée de CoM dans chaque couche de l'architecture Transformer. Sur la base de CoLM, nous introduisons en outre CoLM-Air en intégrant un mécanisme de partage de clés et de valeurs (KV), qui calcule toutes les clés et valeurs dans la premiÚre chaßne puis les partage à travers toutes les chaßnes. Cette conception démontre une extensibilité supplémentaire, permettant par exemple un changement transparent de modÚle de langage, une accélération du pré-remplissage, etc. Les résultats expérimentaux montrent que notre famille CoLM peut atteindre des performances comparables à celles du Transformer standard, tout en offrant une plus grande flexibilité, comme une mise à l'échelle progressive pour améliorer l'efficacité de l'entraßnement et fournir plusieurs tailles de modÚles pour une inférence élastique, ouvrant ainsi une nouvelle voie pour la construction de modÚles de langage. Notre code sera publié ultérieurement à l'adresse suivante : https://github.com/microsoft/CoLM.