ChatPaper.aiChatPaper

SUTRA: Arquitetura Escalável de Modelo de Linguagem Multilíngue

SUTRA: Scalable Multilingual Language Model Architecture

May 7, 2024
Autores: Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry
cs.AI

Resumo

Neste artigo, apresentamos o SUTRA, uma arquitetura de Modelo de Linguagem de Grande Escala (LLM) multilíngue capaz de compreender, raciocinar e gerar texto em mais de 50 idiomas. O design do SUTRA desacopla de forma única o entendimento conceitual central do processamento específico de cada idioma, o que facilita o alinhamento e aprendizado multilíngue escalável e eficiente. Empregando uma estrutura de Mistura de Especialistas tanto no processamento de idiomas quanto de conceitos, o SUTRA demonstra eficiência computacional e capacidade de resposta. Por meio de avaliações extensivas, o SUTRA supera modelos existentes como GPT-3.5 e Llama2 em 20-30% nos principais benchmarks de Compreensão de Linguagem Multitarefa em Massa (MMLU) para tarefas multilíngues. Os modelos SUTRA também são LLMs online que podem utilizar conhecimento da internet para fornecer respostas sem alucinações, factuais e atualizadas, mantendo suas capacidades multilíngues. Além disso, exploramos as implicações mais amplas de sua arquitetura para o futuro da IA multilíngue, destacando seu potencial para democratizar o acesso à tecnologia de IA globalmente e para melhorar a equidade e utilidade da IA em regiões com idiomas predominantemente não ingleses. Nossos achados sugerem que o SUTRA não apenas preenche lacunas cruciais nas capacidades dos modelos multilíngues, mas também estabelece um novo padrão para eficiência operacional e escalabilidade em aplicações de IA.
English
In this paper, we introduce SUTRA, multilingual Large Language Model architecture capable of understanding, reasoning, and generating text in over 50 languages. SUTRA's design uniquely decouples core conceptual understanding from language-specific processing, which facilitates scalable and efficient multilingual alignment and learning. Employing a Mixture of Experts framework both in language and concept processing, SUTRA demonstrates both computational efficiency and responsiveness. Through extensive evaluations, SUTRA is demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on leading Massive Multitask Language Understanding (MMLU) benchmarks for multilingual tasks. SUTRA models are also online LLMs that can use knowledge from the internet to provide hallucination-free, factual and up-to-date responses while retaining their multilingual capabilities. Furthermore, we explore the broader implications of its architecture for the future of multilingual AI, highlighting its potential to democratize access to AI technology globally and to improve the equity and utility of AI in regions with predominantly non-English languages. Our findings suggest that SUTRA not only fills pivotal gaps in multilingual model capabilities but also establishes a new benchmark for operational efficiency and scalability in AI applications.
PDF382December 15, 2024