ChatPaper.aiChatPaper

SUTRA: 확장 가능한 다국어 언어 모델 아키텍처

SUTRA: Scalable Multilingual Language Model Architecture

May 7, 2024
저자: Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry
cs.AI

초록

본 논문에서는 50개 이상의 언어로 텍스트를 이해, 추론 및 생성할 수 있는 다국어 대형 언어 모델 아키텍처인 SUTRA를 소개합니다. SUTRA의 설계는 핵심 개념 이해와 언어별 처리를 독립적으로 분리함으로써 확장 가능하고 효율적인 다국어 정렬 및 학습을 가능하게 합니다. 언어 및 개념 처리 모두에서 전문가 혼합(Mixture of Experts) 프레임워크를 채택한 SUTRA는 계산 효율성과 응답성을 동시에 보여줍니다. 광범위한 평가를 통해 SUTRA는 다국어 작업을 위한 주요 Massive Multitask Language Understanding (MMLU) 벤치마크에서 GPT-3.5, Llama2와 같은 기존 모델을 20-30% 앞서는 것으로 입증되었습니다. SUTRA 모델은 또한 온라인 대형 언어 모델(LLM)로서 인터넷의 지식을 활용하여 환각(hallucination) 없는 사실적이고 최신의 응답을 제공하면서도 다국어 기능을 유지합니다. 더 나아가, 우리는 이 아키텍처가 다국어 AI의 미래에 미칠 광범위한 영향을 탐구하며, 전 세계적으로 AI 기술에 대한 접근을 민주화하고, 비영어권 지역에서 AI의 공평성과 유용성을 개선할 잠재력을 강조합니다. 우리의 연구 결과는 SUTRA가 다국어 모델 능력의 중요한 격차를 메울 뿐만 아니라 AI 애플리케이션에서 운영 효율성과 확장성에 대한 새로운 벤치마크를 설정한다는 것을 시사합니다.
English
In this paper, we introduce SUTRA, multilingual Large Language Model architecture capable of understanding, reasoning, and generating text in over 50 languages. SUTRA's design uniquely decouples core conceptual understanding from language-specific processing, which facilitates scalable and efficient multilingual alignment and learning. Employing a Mixture of Experts framework both in language and concept processing, SUTRA demonstrates both computational efficiency and responsiveness. Through extensive evaluations, SUTRA is demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on leading Massive Multitask Language Understanding (MMLU) benchmarks for multilingual tasks. SUTRA models are also online LLMs that can use knowledge from the internet to provide hallucination-free, factual and up-to-date responses while retaining their multilingual capabilities. Furthermore, we explore the broader implications of its architecture for the future of multilingual AI, highlighting its potential to democratize access to AI technology globally and to improve the equity and utility of AI in regions with predominantly non-English languages. Our findings suggest that SUTRA not only fills pivotal gaps in multilingual model capabilities but also establishes a new benchmark for operational efficiency and scalability in AI applications.

Summary

AI-Generated Summary

PDF402December 15, 2024