Chain-of-Model-Lernen für Sprachmodelle
Chain-of-Model Learning for Language Model
May 17, 2025
Autoren: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
cs.AI
Zusammenfassung
In diesem Artikel schlagen wir ein neuartiges Lernparadigma vor, das als Chain-of-Model (CoM) bezeichnet wird. Dieses Paradigma integriert die kausale Beziehung in die verborgenen Zustände jeder Schicht in Form einer Kette, wodurch eine erhebliche Skalierungseffizienz im Modelltraining und Flexibilität bei der Inferenz im Einsatz erreicht wird. Wir führen das Konzept der Chain-of-Representation (CoR) ein, das die verborgenen Zustände jeder Schicht als eine Kombination mehrerer Unterrepräsentationen (d.h. Ketten) auf der Ebene der verborgenen Dimensionen formuliert. In jeder Schicht kann jede Kette aus den Ausgaberepräsentationen nur alle vorhergehenden Ketten in den Eingaberepräsentationen einsehen. Folglich kann das auf dem CoM-Framework basierende Modell die Modellgröße progressiv skalieren, indem die Ketten basierend auf den vorherigen Modellen (d.h. Ketten) erhöht werden, und bietet mehrere Submodelle in verschiedenen Größen für eine elastische Inferenz durch die Verwendung unterschiedlicher Kettenzahlen. Basierend auf diesem Prinzip entwickeln wir Chain-of-Language-Model (CoLM), das die Idee von CoM in jede Schicht der Transformer-Architektur integriert. Aufbauend auf CoLM führen wir weiterhin CoLM-Air ein, indem wir einen KV-Sharing-Mechanismus einführen, der alle Schlüssel und Werte innerhalb der ersten Kette berechnet und dann über alle Ketten hinweg teilt. Dieses Design zeigt zusätzliche Erweiterbarkeit, wie z.B. nahtloses LM-Switching, Beschleunigung des Prefillings und mehr. Experimentelle Ergebnisse zeigen, dass unsere CoLM-Familie eine vergleichbare Leistung zum Standard-Transformer erreichen kann, während gleichzeitig größere Flexibilität ermöglicht wird, wie z.B. progressive Skalierung zur Verbesserung der Trainingseffizienz und die Bereitstellung mehrerer variabler Modellgrößen für eine elastische Inferenz, was einen neuen Weg zur Entwicklung von Sprachmodellen ebnet. Unser Code wird in Zukunft unter https://github.com/microsoft/CoLM veröffentlicht.
English
In this paper, we propose a novel learning paradigm, termed Chain-of-Model
(CoM), which incorporates the causal relationship into the hidden states of
each layer as a chain style, thereby introducing great scaling efficiency in
model training and inference flexibility in deployment. We introduce the
concept of Chain-of-Representation (CoR), which formulates the hidden states at
each layer as a combination of multiple sub-representations (i.e., chains) at
the hidden dimension level. In each layer, each chain from the output
representations can only view all of its preceding chains in the input
representations. Consequently, the model built upon CoM framework can
progressively scale up the model size by increasing the chains based on the
previous models (i.e., chains), and offer multiple sub-models at varying sizes
for elastic inference by using different chain numbers. Based on this
principle, we devise Chain-of-Language-Model (CoLM), which incorporates the
idea of CoM into each layer of Transformer architecture. Based on CoLM, we
further introduce CoLM-Air by introducing a KV sharing mechanism, that computes
all keys and values within the first chain and then shares across all chains.
This design demonstrates additional extensibility, such as enabling seamless LM
switching, prefilling acceleration and so on. Experimental results demonstrate
our CoLM family can achieve comparable performance to the standard Transformer,
while simultaneously enabling greater flexiblity, such as progressive scaling
to improve training efficiency and offer multiple varying model sizes for
elastic inference, paving a a new way toward building language models. Our code
will be released in the future at: https://github.com/microsoft/CoLM.Summary
AI-Generated Summary