ChatPaper.aiChatPaper

SUTRA: Skalierbare mehrsprachige Sprachmodellarchitektur

SUTRA: Scalable Multilingual Language Model Architecture

May 7, 2024
Autoren: Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry
cs.AI

Zusammenfassung

In diesem Paper stellen wir SUTRA vor, eine mehrsprachige Large Language Model-Architektur, die in der Lage ist, Texte in über 50 Sprachen zu verstehen, zu analysieren und zu generieren. Das Design von SUTRA entkoppelt auf einzigartige Weise das grundlegende konzeptionelle Verständnis von der sprachspezifischen Verarbeitung, was eine skalierbare und effiziente mehrsprachige Ausrichtung und Lernfähigkeit ermöglicht. Durch die Verwendung eines Mixture of Experts-Frameworks sowohl in der Sprach- als auch in der Konzeptverarbeitung zeigt SUTRA sowohl Recheneffizienz als auch Reaktionsfähigkeit. In umfangreichen Evaluierungen wird gezeigt, dass SUTRA bestehende Modelle wie GPT-3.5 und Llama2 auf führenden Massive Multitask Language Understanding (MMLU)-Benchmarks für mehrsprachige Aufgaben um 20-30% übertrifft. SUTRA-Modelle sind auch Online-Large Language Models, die Wissen aus dem Internet nutzen können, um halluzinationsfreie, sachliche und aktuelle Antworten zu liefern, während sie ihre mehrsprachigen Fähigkeiten beibehalten. Darüber hinaus untersuchen wir die breiteren Auswirkungen seiner Architektur auf die Zukunft der mehrsprachigen KI und heben ihr Potenzial hervor, den weltweiten Zugang zur KI-Technologie zu demokratisieren und die Gleichberechtigung und Nützlichkeit von KI in Regionen mit überwiegend nicht-englischen Sprachen zu verbessern. Unsere Ergebnisse legen nahe, dass SUTRA nicht nur entscheidende Lücken in den Fähigkeiten mehrsprachiger Modelle schließt, sondern auch einen neuen Maßstab für operative Effizienz und Skalierbarkeit in KI-Anwendungen setzt.
English
In this paper, we introduce SUTRA, multilingual Large Language Model architecture capable of understanding, reasoning, and generating text in over 50 languages. SUTRA's design uniquely decouples core conceptual understanding from language-specific processing, which facilitates scalable and efficient multilingual alignment and learning. Employing a Mixture of Experts framework both in language and concept processing, SUTRA demonstrates both computational efficiency and responsiveness. Through extensive evaluations, SUTRA is demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on leading Massive Multitask Language Understanding (MMLU) benchmarks for multilingual tasks. SUTRA models are also online LLMs that can use knowledge from the internet to provide hallucination-free, factual and up-to-date responses while retaining their multilingual capabilities. Furthermore, we explore the broader implications of its architecture for the future of multilingual AI, highlighting its potential to democratize access to AI technology globally and to improve the equity and utility of AI in regions with predominantly non-English languages. Our findings suggest that SUTRA not only fills pivotal gaps in multilingual model capabilities but also establishes a new benchmark for operational efficiency and scalability in AI applications.

Summary

AI-Generated Summary

PDF402December 15, 2024