Apprendimento a Catena di Modelli per Modelli Linguistici

Abstract

In questo articolo, proponiamo un nuovo paradigma di apprendimento, denominato Chain-of-Model (CoM), che incorpora la relazione causale negli stati nascosti di ogni livello in uno stile a catena, introducendo così una notevole efficienza di scalabilità nell'addestramento del modello e flessibilità nell'inferenza durante il deployment. Introduciamo il concetto di Chain-of-Representation (CoR), che formula gli stati nascosti di ogni livello come una combinazione di molteplici sotto-rappresentazioni (cioè, catene) a livello di dimensione nascosta. In ogni livello, ogni catena delle rappresentazioni in output può visualizzare solo tutte le catene precedenti nelle rappresentazioni in input. Di conseguenza, il modello basato sul framework CoM può scalare progressivamente la dimensione del modello aumentando le catene basandosi sui modelli precedenti (cioè, le catene), e offrire molteplici sotto-modelli di dimensioni variabili per un'inferenza elastica utilizzando un numero diverso di catene. Basandoci su questo principio, progettiamo Chain-of-Language-Model (CoLM), che incorpora l'idea di CoM in ogni livello dell'architettura Transformer. Basandoci su CoLM, introduciamo ulteriormente CoLM-Air mediante un meccanismo di condivisione KV, che calcola tutte le chiavi e i valori all'interno della prima catena e poi li condivide attraverso tutte le catene. Questo design dimostra un'ulteriore estensibilità, come abilitare il cambio senza soluzione di continuità del modello linguistico, l'accelerazione del prefilling e così via. I risultati sperimentali dimostrano che la nostra famiglia CoLM può raggiungere prestazioni comparabili al Transformer standard, offrendo contemporaneamente una maggiore flessibilità, come la scalabilità progressiva per migliorare l'efficienza dell'addestramento e offrire molteplici dimensioni di modello per un'inferenza elastica, aprendo una nuova strada verso la costruzione di modelli linguistici. Il nostro codice sarà rilasciato in futuro all'indirizzo: https://github.com/microsoft/CoLM.

English

In this paper, we propose a novel learning paradigm, termed Chain-of-Model (CoM), which incorporates the causal relationship into the hidden states of each layer as a chain style, thereby introducing great scaling efficiency in model training and inference flexibility in deployment. We introduce the concept of Chain-of-Representation (CoR), which formulates the hidden states at each layer as a combination of multiple sub-representations (i.e., chains) at the hidden dimension level. In each layer, each chain from the output representations can only view all of its preceding chains in the input representations. Consequently, the model built upon CoM framework can progressively scale up the model size by increasing the chains based on the previous models (i.e., chains), and offer multiple sub-models at varying sizes for elastic inference by using different chain numbers. Based on this principle, we devise Chain-of-Language-Model (CoLM), which incorporates the idea of CoM into each layer of Transformer architecture. Based on CoLM, we further introduce CoLM-Air by introducing a KV sharing mechanism, that computes all keys and values within the first chain and then shares across all chains. This design demonstrates additional extensibility, such as enabling seamless LM switching, prefilling acceleration and so on. Experimental results demonstrate our CoLM family can achieve comparable performance to the standard Transformer, while simultaneously enabling greater flexiblity, such as progressive scaling to improve training efficiency and offer multiple varying model sizes for elastic inference, paving a a new way toward building language models. Our code will be released in the future at: https://github.com/microsoft/CoLM.

Apprendimento a Catena di Modelli per Modelli Linguistici

Chain-of-Model Learning for Language Model

Abstract

Support