ChatPaper.aiChatPaper

SUTRA: Масштабируемая многоязычная архитектура языковой модели

SUTRA: Scalable Multilingual Language Model Architecture

May 7, 2024
Авторы: Abhijit Bendale, Michael Sapienza, Steven Ripplinger, Simon Gibbs, Jaewon Lee, Pranav Mistry
cs.AI

Аннотация

В данной статье мы представляем SUTRA, мультиязычную архитектуру большой языковой модели, способную понимать, рассуждать и генерировать текст на более чем 50 языках. Уникальная концепция SUTRA разделяет базовое понимание концепций от языковой обработки, что обеспечивает масштабируемое и эффективное мультиязычное выравнивание и обучение. Используя структуру Смеси Экспертов как для обработки языка, так и концепций, SUTRA демонстрирует как вычислительную эффективность, так и отзывчивость. Через обширные оценки показано, что SUTRA превосходит существующие модели, такие как GPT-3.5, Llama2 на 20-30% на ведущих бенчмарках для мультиязычных задач по массовому мультизадачному пониманию языка. Модели SUTRA также являются онлайн-языковыми моделями, способными использовать знания из интернета для предоставления ответов без галлюцинаций, фактических и актуальных, сохраняя при этом свои мультиязычные возможности. Кроме того, мы исследуем более широкие последствия его архитектуры для будущего мультиязычного искусственного интеллекта, выделяя его потенциал для демократизации доступа к технологиям искусственного интеллекта во всем мире и для улучшения равенства и полезности искусственного интеллекта в регионах с преимущественно неанглоязычными языками. Наши результаты показывают, что SUTRA не только заполняет ключевые пробелы в возможностях мультиязычных моделей, но также устанавливает новый стандарт операционной эффективности и масштабируемости в приложениях искусственного интеллекта.
English
In this paper, we introduce SUTRA, multilingual Large Language Model architecture capable of understanding, reasoning, and generating text in over 50 languages. SUTRA's design uniquely decouples core conceptual understanding from language-specific processing, which facilitates scalable and efficient multilingual alignment and learning. Employing a Mixture of Experts framework both in language and concept processing, SUTRA demonstrates both computational efficiency and responsiveness. Through extensive evaluations, SUTRA is demonstrated to surpass existing models like GPT-3.5, Llama2 by 20-30% on leading Massive Multitask Language Understanding (MMLU) benchmarks for multilingual tasks. SUTRA models are also online LLMs that can use knowledge from the internet to provide hallucination-free, factual and up-to-date responses while retaining their multilingual capabilities. Furthermore, we explore the broader implications of its architecture for the future of multilingual AI, highlighting its potential to democratize access to AI technology globally and to improve the equity and utility of AI in regions with predominantly non-English languages. Our findings suggest that SUTRA not only fills pivotal gaps in multilingual model capabilities but also establishes a new benchmark for operational efficiency and scalability in AI applications.

Summary

AI-Generated Summary

PDF402December 15, 2024