SUTRA: Architettura Scalabile per Modelli Linguistici Multilingue
SUTRA: Scalable Multilingual Language Model Architecture
May 7, 2024
Autori: Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry
cs.AI
Abstract
In questo articolo presentiamo SUTRA, un'architettura di Large Language Model multilingue in grado di comprendere, ragionare e generare testo in oltre 50 lingue. Il design di SUTRA separa in modo unico la comprensione concettuale di base dall'elaborazione specifica per lingua, facilitando un allineamento e un apprendimento multilingue scalabile ed efficiente. Utilizzando un framework Mixture of Experts sia nell'elaborazione linguistica che concettuale, SUTRA dimostra sia efficienza computazionale che reattività. Attraverso valutazioni estensive, SUTRA supera modelli esistenti come GPT-3.5 e Llama2 del 20-30% sui principali benchmark di Massive Multitask Language Understanding (MMLU) per compiti multilingue. I modelli SUTRA sono anche LLM online in grado di utilizzare conoscenze provenienti da internet per fornire risposte prive di allucinazioni, fattuali e aggiornate, mantenendo al contempo le loro capacità multilingue. Inoltre, esploriamo le implicazioni più ampie della sua architettura per il futuro dell'IA multilingue, evidenziando il suo potenziale nel democratizzare l'accesso alla tecnologia IA a livello globale e nel migliorare l'equità e l'utilità dell'IA nelle regioni con lingue prevalentemente non inglesi. I nostri risultati suggeriscono che SUTRA non solo colma lacune cruciali nelle capacità dei modelli multilingue, ma stabilisce anche un nuovo standard per l'efficienza operativa e la scalabilità nelle applicazioni di IA.
English
In this paper, we introduce SUTRA, multilingual Large Language Model
architecture capable of understanding, reasoning, and generating text in over
50 languages. SUTRA's design uniquely decouples core conceptual understanding
from language-specific processing, which facilitates scalable and efficient
multilingual alignment and learning. Employing a Mixture of Experts framework
both in language and concept processing, SUTRA demonstrates both computational
efficiency and responsiveness. Through extensive evaluations, SUTRA is
demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on
leading Massive Multitask Language Understanding (MMLU) benchmarks for
multilingual tasks. SUTRA models are also online LLMs that can use knowledge
from the internet to provide hallucination-free, factual and up-to-date
responses while retaining their multilingual capabilities. Furthermore, we
explore the broader implications of its architecture for the future of
multilingual AI, highlighting its potential to democratize access to AI
technology globally and to improve the equity and utility of AI in regions with
predominantly non-English languages. Our findings suggest that SUTRA not only
fills pivotal gaps in multilingual model capabilities but also establishes a
new benchmark for operational efficiency and scalability in AI applications.