Keten-van-Model Leren voor Taalmodellen
Chain-of-Model Learning for Language Model
May 17, 2025
Auteurs: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
cs.AI
Samenvatting
In dit artikel introduceren we een nieuw leerparadigma, genaamd Chain-of-Model (CoM), dat de causale relatie incorporeert in de verborgen toestanden van elke laag in een kettingstijl, waardoor een grote schaalbaarheidsefficiëntie wordt geïntroduceerd in modeltraining en flexibiliteit in inferentie tijdens implementatie. We introduceren het concept van Chain-of-Representation (CoR), dat de verborgen toestanden in elke laag formuleert als een combinatie van meerdere subrepresentaties (d.w.z. kettingen) op het niveau van de verborgen dimensie. In elke laag kan elke ketting van de uitvoerrepresentaties alleen al zijn voorgaande kettingen in de invoerrepresentaties zien. Hierdoor kan het model dat is gebouwd op het CoM-framework progressief opschalen door kettingen toe te voegen op basis van eerdere modellen (d.w.z. kettingen), en biedt het meerdere submodellen van verschillende groottes voor elastische inferentie door verschillende aantallen kettingen te gebruiken. Op basis van dit principe ontwikkelen we Chain-of-Language-Model (CoLM), dat het idee van CoM incorporeert in elke laag van de Transformer-architectuur. Op basis van CoLM introduceren we verder CoLM-Air door een KV-delingmechanisme te introduceren, dat alle sleutels en waarden binnen de eerste ketting berekent en vervolgens deelt over alle kettingen. Dit ontwerp toont aanvullende uitbreidingsmogelijkheden, zoals het mogelijk maken van naadloze LM-switching, prefilling-versnelling en meer. Experimentele resultaten tonen aan dat onze CoLM-familie vergelijkbare prestaties kan bereiken als de standaard Transformer, terwijl tegelijkertijd meer flexibiliteit wordt geboden, zoals progressief schalen om de trainings efficiëntie te verbeteren en meerdere modelgroottes te bieden voor elastische inferentie, wat een nieuwe weg opent naar het bouwen van taalmmodellen. Onze code zal in de toekomst worden vrijgegeven op: https://github.com/microsoft/CoLM.
English
In this paper, we propose a novel learning paradigm, termed Chain-of-Model
(CoM), which incorporates the causal relationship into the hidden states of
each layer as a chain style, thereby introducing great scaling efficiency in
model training and inference flexibility in deployment. We introduce the
concept of Chain-of-Representation (CoR), which formulates the hidden states at
each layer as a combination of multiple sub-representations (i.e., chains) at
the hidden dimension level. In each layer, each chain from the output
representations can only view all of its preceding chains in the input
representations. Consequently, the model built upon CoM framework can
progressively scale up the model size by increasing the chains based on the
previous models (i.e., chains), and offer multiple sub-models at varying sizes
for elastic inference by using different chain numbers. Based on this
principle, we devise Chain-of-Language-Model (CoLM), which incorporates the
idea of CoM into each layer of Transformer architecture. Based on CoLM, we
further introduce CoLM-Air by introducing a KV sharing mechanism, that computes
all keys and values within the first chain and then shares across all chains.
This design demonstrates additional extensibility, such as enabling seamless LM
switching, prefilling acceleration and so on. Experimental results demonstrate
our CoLM family can achieve comparable performance to the standard Transformer,
while simultaneously enabling greater flexiblity, such as progressive scaling
to improve training efficiency and offer multiple varying model sizes for
elastic inference, paving a a new way toward building language models. Our code
will be released in the future at: https://github.com/microsoft/CoLM.Summary
AI-Generated Summary