链式模型学习在语言模型中的应用Chain-of-Model Learning for Language Model
本文提出了一种新颖的学习范式,称为链式模型(Chain-of-Model, CoM),该范式将因果关系以链式结构融入每一层的隐藏状态中,从而在模型训练中引入了显著的扩展效率,并在部署时提供了灵活的推理能力。我们引入了链式表示(Chain-of-Representation, CoR)的概念,将每一层的隐藏状态在隐藏维度层面表述为多个子表示(即链)的组合。在每一层中,输出表示中的每条链仅能查看输入表示中所有先前的链。因此,基于CoM框架构建的模型能够通过在前序模型(即链)基础上增加链来逐步扩展模型规模,并通过使用不同数量的链提供多种不同大小的子模型,实现弹性推理。基于这一原理,我们设计了链式语言模型(Chain-of-Language-Model, CoLM),将CoM的思想融入Transformer架构的每一层。在CoLM的基础上,我们进一步引入了CoLM-Air,通过引入KV共享机制,在第一条链中计算所有键和值,并在所有链之间共享。这一设计展示了额外的扩展性,例如实现无缝语言模型切换、预填充加速等功能。实验结果表明,我们的CoLM系列模型能够达到与标准Transformer相当的性能,同时提供了更大的灵活性,例如通过逐步扩展提高训练效率,并提供多种不同大小的模型用于弹性推理,为构建语言模型开辟了一条新途径。我们的代码将在未来发布于:https://github.com/microsoft/CoLM。