Aprendizaje en Cadena de Modelos para Modelos de Lenguaje
Chain-of-Model Learning for Language Model
May 17, 2025
Autores: Kaitao Song, Xiaohua Wang, Xu Tan, Huiqiang Jiang, Chengruidong Zhang, Yongliang Shen, Cen LU, Zihao Li, Zifan Song, Caihua Shan, Yansen Wang, Kan Ren, Xiaoqing Zheng, Tao Qin, Yuqing Yang, Dongsheng Li, Lili Qiu
cs.AI
Resumen
En este artículo, proponemos un nuevo paradigma de aprendizaje, denominado Cadena-de-Modelo (Chain-of-Model, CoM), que incorpora la relación causal en los estados ocultos de cada capa en forma de cadena, introduciendo así una gran eficiencia de escalado en el entrenamiento del modelo y flexibilidad en la inferencia durante su despliegue. Introducimos el concepto de Cadena-de-Representación (Chain-of-Representation, CoR), que formula los estados ocultos en cada capa como una combinación de múltiples sub-representaciones (es decir, cadenas) a nivel de la dimensión oculta. En cada capa, cada cadena de las representaciones de salida solo puede ver todas las cadenas precedentes en las representaciones de entrada. En consecuencia, el modelo construido sobre el marco CoM puede escalar progresivamente el tamaño del modelo aumentando las cadenas basadas en los modelos anteriores (es decir, cadenas), y ofrecer múltiples submodelos de distintos tamaños para una inferencia elástica utilizando diferentes números de cadenas. Basándonos en este principio, diseñamos Cadena-de-Modelo-de-Lenguaje (Chain-of-Language-Model, CoLM), que incorpora la idea de CoM en cada capa de la arquitectura Transformer. Basándonos en CoLM, introducimos además CoLM-Air mediante un mecanismo de compartición de claves y valores (KV), que calcula todas las claves y valores dentro de la primera cadena y luego los comparte en todas las cadenas. Este diseño demuestra una extensibilidad adicional, como permitir un cambio fluido de modelos de lenguaje, aceleración de prefilling, entre otros. Los resultados experimentales demuestran que nuestra familia CoLM puede alcanzar un rendimiento comparable al Transformer estándar, al mismo tiempo que habilita una mayor flexibilidad, como el escalado progresivo para mejorar la eficiencia del entrenamiento y ofrecer múltiples tamaños de modelo para una inferencia elástica, abriendo un nuevo camino hacia la construcción de modelos de lenguaje. Nuestro código será lanzado en el futuro en: https://github.com/microsoft/CoLM.
English
In this paper, we propose a novel learning paradigm, termed Chain-of-Model
(CoM), which incorporates the causal relationship into the hidden states of
each layer as a chain style, thereby introducing great scaling efficiency in
model training and inference flexibility in deployment. We introduce the
concept of Chain-of-Representation (CoR), which formulates the hidden states at
each layer as a combination of multiple sub-representations (i.e., chains) at
the hidden dimension level. In each layer, each chain from the output
representations can only view all of its preceding chains in the input
representations. Consequently, the model built upon CoM framework can
progressively scale up the model size by increasing the chains based on the
previous models (i.e., chains), and offer multiple sub-models at varying sizes
for elastic inference by using different chain numbers. Based on this
principle, we devise Chain-of-Language-Model (CoLM), which incorporates the
idea of CoM into each layer of Transformer architecture. Based on CoLM, we
further introduce CoLM-Air by introducing a KV sharing mechanism, that computes
all keys and values within the first chain and then shares across all chains.
This design demonstrates additional extensibility, such as enabling seamless LM
switching, prefilling acceleration and so on. Experimental results demonstrate
our CoLM family can achieve comparable performance to the standard Transformer,
while simultaneously enabling greater flexiblity, such as progressive scaling
to improve training efficiency and offer multiple varying model sizes for
elastic inference, paving a a new way toward building language models. Our code
will be released in the future at: https://github.com/microsoft/CoLM.