Yi: Открытые модели базовых данных от 01.AIYi: Open Foundation Models by 01.AI
Мы представляем семейство моделей Yi, серию языковых и мультимодальных моделей, демонстрирующих высокие многомерные возможности. Семейство моделей Yi основано на предварительно обученных языковых моделях объемом 6 миллиардов и 34 миллиарда токенов, после чего мы расширяем их до моделей для чатов, моделей с длинным контекстом в 200 тысяч токенов, моделей с увеличенной глубиной и моделей для видео-языкового взаимодействия. Наши базовые модели показывают высокую производительность на широком спектре бенчмарков, таких как MMLU, а наши донастроенные модели для чатов демонстрируют высокую оценку предпочтения человека на основных платформах оценки, таких как AlpacaEval и Chatbot Arena. Основываясь на нашей масштабируемой суперкомпьютерной инфраструктуре и классической архитектуре трансформера, мы приписываем производительность моделей Yi в первую очередь к качеству данных, полученному благодаря нашим усилиям по инженерии данных. Для предварительного обучения мы создаем 3,1 триллиона токенов англоязычных и китайских корпусов, используя каскадную систему дедупликации данных и фильтрации по качеству. Для донастройки мы улучшаем небольшой набор данных инструкций (менее 10 тысяч) на протяжении нескольких итераций таким образом, что каждый отдельный пример был проверен непосредственно нашими инженерами машинного обучения. Для видео-языкового взаимодействия мы объединяем языковую модель для чатов с кодировщиком трансформера для видео и обучаем модель выравнивать визуальные представления с семантическим пространством языковой модели. Мы дополнительно увеличиваем длину контекста до 200 тысяч токенов с помощью легкого непрерывного предварительного обучения и демонстрируем высокую производительность поиска "иголки в стоге сена". Мы показываем, что увеличение глубины предварительной точки через непрерывное предварительное обучение дополнительно улучшает производительность. Мы считаем, что, учитывая наши текущие результаты, продолжение увеличения параметров модели с тщательно оптимизированными данными приведет к еще более сильным моделям на передовом фронте.