Babel: Modelli Linguistici Multilingue su Larga Scala che Supportano Oltre il 90% dei Parlanti GlobaliBabel: Open Multilingual Large Language Models Serving Over 90% of
Global Speakers
I modelli linguistici di grandi dimensioni (LLM) hanno rivoluzionato l'elaborazione del linguaggio naturale (NLP), tuttavia gli LLM multilingue open-source rimangono scarsi, con i modelli esistenti spesso limitati nella copertura linguistica. Tali modelli tendono a privilegiare le lingue ben supportate, mentre le lingue ampiamente parlate ma con risorse limitate vengono spesso trascurate. Per affrontare questa disparità, presentiamo Babel, un LLM multilingue open-source che copre le prime 25 lingue per numero di parlanti, supporta oltre il 90% della popolazione globale e include molte lingue trascurate da altri LLM multilingue open-source. A differenza degli approcci tradizionali di pre-addestramento continuo, Babel espande il numero di parametri attraverso una tecnica di estensione degli strati che eleva il limite prestazionale del modello. Introduciamo due varianti: Babel-9B, progettato per un'inferenza e un fine-tuning efficienti, e Babel-83B, che stabilisce un nuovo standard per gli LLM multilingue open-source. Valutazioni estensive su compiti multilingue dimostrano la sua superiorità rispetto a LLM open-source di dimensioni comparabili. Inoltre, utilizzando dataset open-source per il fine-tuning supervisionato, Babel raggiunge prestazioni notevoli, con Babel-9B-Chat che si distingue tra gli LLM di dimensioni pari a 10B e Babel-83B-Chat che stabilisce un nuovo standard per i compiti multilingue, raggiungendo lo stesso livello dei modelli commerciali.