Aprendizado em Cadeia de Modelos para Modelos de Linguagem
Chain-of-Model Learning for Language Model
May 17, 2025
Autores: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
cs.AI
Resumo
Neste artigo, propomos um novo paradigma de aprendizagem, denominado Chain-of-Model (CoM), que incorpora a relação causal nos estados ocultos de cada camada em um estilo de cadeia, introduzindo assim uma grande eficiência de escalonamento no treinamento do modelo e flexibilidade na inferência durante a implantação. Introduzimos o conceito de Chain-of-Representation (CoR), que formula os estados ocultos em cada camada como uma combinação de múltiplas sub-representações (ou seja, cadeias) no nível da dimensão oculta. Em cada camada, cada cadeia das representações de saída pode apenas visualizar todas as suas cadeias precedentes nas representações de entrada. Consequentemente, o modelo construído sobre o framework CoM pode escalar progressivamente o tamanho do modelo ao aumentar as cadeias com base nos modelos anteriores (ou seja, cadeias), e oferecer múltiplos sub-modelos de tamanhos variados para inferência elástica ao utilizar diferentes números de cadeias. Com base nesse princípio, desenvolvemos o Chain-of-Language-Model (CoLM), que incorpora a ideia do CoM em cada camada da arquitetura Transformer. Com base no CoLM, introduzimos ainda o CoLM-Air ao incorporar um mecanismo de compartilhamento de KV, que calcula todas as chaves e valores dentro da primeira cadeia e então os compartilha entre todas as cadeias. Esse design demonstra extensibilidade adicional, como permitir a troca contínua de modelos de linguagem, aceleração de preenchimento prévio e muito mais. Resultados experimentais demonstram que nossa família CoLM pode alcançar desempenho comparável ao Transformer padrão, ao mesmo tempo em que oferece maior flexibilidade, como escalonamento progressivo para melhorar a eficiência de treinamento e oferecer múltiplos tamanhos de modelos para inferência elástica, abrindo um novo caminho para a construção de modelos de linguagem. Nosso código será liberado futuramente em: https://github.com/microsoft/CoLM.
English
In this paper, we propose a novel learning paradigm, termed Chain-of-Model
(CoM), which incorporates the causal relationship into the hidden states of
each layer as a chain style, thereby introducing great scaling efficiency in
model training and inference flexibility in deployment. We introduce the
concept of Chain-of-Representation (CoR), which formulates the hidden states at
each layer as a combination of multiple sub-representations (i.e., chains) at
the hidden dimension level. In each layer, each chain from the output
representations can only view all of its preceding chains in the input
representations. Consequently, the model built upon CoM framework can
progressively scale up the model size by increasing the chains based on the
previous models (i.e., chains), and offer multiple sub-models at varying sizes
for elastic inference by using different chain numbers. Based on this
principle, we devise Chain-of-Language-Model (CoLM), which incorporates the
idea of CoM into each layer of Transformer architecture. Based on CoLM, we
further introduce CoLM-Air by introducing a KV sharing mechanism, that computes
all keys and values within the first chain and then shares across all chains.
This design demonstrates additional extensibility, such as enabling seamless LM
switching, prefilling acceleration and so on. Experimental results demonstrate
our CoLM family can achieve comparable performance to the standard Transformer,
while simultaneously enabling greater flexiblity, such as progressive scaling
to improve training efficiency and offer multiple varying model sizes for
elastic inference, paving a a new way toward building language models. Our code
will be released in the future at: https://github.com/microsoft/CoLM.