Apprentissage en Chaîne de Modèles pour les Modèles de Langage
Chain-of-Model Learning for Language Model
May 17, 2025
Auteurs: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
cs.AI
Résumé
Dans cet article, nous proposons un nouveau paradigme d'apprentissage, appelé Chaîne-de-Modèles (Chain-of-Model, CoM), qui intègre la relation causale dans les états cachés de chaque couche sous forme de chaîne, introduisant ainsi une grande efficacité de mise à l'échelle lors de l'entraînement du modèle et une flexibilité accrue lors de l'inférence. Nous introduisons le concept de Chaîne-de-Représentation (Chain-of-Representation, CoR), qui formule les états cachés de chaque couche comme une combinaison de plusieurs sous-représentations (c'est-à-dire des chaînes) au niveau de la dimension cachée. Dans chaque couche, chaque chaîne des représentations de sortie ne peut visualiser que toutes les chaînes qui la précèdent dans les représentations d'entrée. Par conséquent, le modèle construit sur le cadre CoM peut progressivement augmenter sa taille en ajoutant des chaînes basées sur les modèles précédents (c'est-à-dire les chaînes), et offrir plusieurs sous-modèles de tailles variables pour une inférence élastique en utilisant un nombre différent de chaînes. Sur la base de ce principe, nous concevons la Chaîne-de-Modèle-de-Langage (Chain-of-Language-Model, CoLM), qui intègre l'idée de CoM dans chaque couche de l'architecture Transformer. Sur la base de CoLM, nous introduisons en outre CoLM-Air en intégrant un mécanisme de partage de clés et de valeurs (KV), qui calcule toutes les clés et valeurs dans la première chaîne puis les partage à travers toutes les chaînes. Cette conception démontre une extensibilité supplémentaire, permettant par exemple un changement transparent de modèle de langage, une accélération du pré-remplissage, etc. Les résultats expérimentaux montrent que notre famille CoLM peut atteindre des performances comparables à celles du Transformer standard, tout en offrant une plus grande flexibilité, comme une mise à l'échelle progressive pour améliorer l'efficacité de l'entraînement et fournir plusieurs tailles de modèles pour une inférence élastique, ouvrant ainsi une nouvelle voie pour la construction de modèles de langage. Notre code sera publié ultérieurement à l'adresse suivante : https://github.com/microsoft/CoLM.
English
In this paper, we propose a novel learning paradigm, termed Chain-of-Model
(CoM), which incorporates the causal relationship into the hidden states of
each layer as a chain style, thereby introducing great scaling efficiency in
model training and inference flexibility in deployment. We introduce the
concept of Chain-of-Representation (CoR), which formulates the hidden states at
each layer as a combination of multiple sub-representations (i.e., chains) at
the hidden dimension level. In each layer, each chain from the output
representations can only view all of its preceding chains in the input
representations. Consequently, the model built upon CoM framework can
progressively scale up the model size by increasing the chains based on the
previous models (i.e., chains), and offer multiple sub-models at varying sizes
for elastic inference by using different chain numbers. Based on this
principle, we devise Chain-of-Language-Model (CoLM), which incorporates the
idea of CoM into each layer of Transformer architecture. Based on CoLM, we
further introduce CoLM-Air by introducing a KV sharing mechanism, that computes
all keys and values within the first chain and then shares across all chains.
This design demonstrates additional extensibility, such as enabling seamless LM
switching, prefilling acceleration and so on. Experimental results demonstrate
our CoLM family can achieve comparable performance to the standard Transformer,
while simultaneously enabling greater flexiblity, such as progressive scaling
to improve training efficiency and offer multiple varying model sizes for
elastic inference, paving a a new way toward building language models. Our code
will be released in the future at: https://github.com/microsoft/CoLM.Summary
AI-Generated Summary