ChatPaper.aiChatPaper

Yi : Modèles de fondation ouverts par 01.AI

Yi: Open Foundation Models by 01.AI

March 7, 2024
Auteurs: 01. AI, Alex Young, Bei Chen, Chao Li, Chengen Huang, Ge Zhang, Guanwei Zhang, Heng Li, Jiangcheng Zhu, Jianqun Chen, Jing Chang, Kaidong Yu, Peng Liu, Qiang Liu, Shawn Yue, Senbin Yang, Shiming Yang, Tao Yu, Wen Xie, Wenhao Huang, Xiaohui Hu, Xiaoyi Ren, Xinyao Niu, Pengcheng Nie, Yuchi Xu, Yudong Liu, Yue Wang, Yuxuan Cai, Zhenyu Gu, Zhiyuan Liu, Zonghong Dai
cs.AI

Résumé

Nous présentons la famille de modèles Yi, une série de modèles linguistiques et multimodaux qui démontrent de solides capacités multidimensionnelles. La famille de modèles Yi est basée sur des modèles linguistiques pré-entraînés de 6B et 34B, que nous étendons ensuite à des modèles de chat, des modèles à contexte long de 200K, des modèles à profondeur augmentée et des modèles vision-langage. Nos modèles de base obtiennent de solides performances sur un large éventail de benchmarks comme MMLU, et nos modèles de chat affinentés atteignent un taux de préférence humaine élevé sur les principales plateformes d'évaluation comme AlpacaEval et Chatbot Arena. En nous appuyant sur notre infrastructure de supercalcul évolutive et l'architecture classique des transformateurs, nous attribuons principalement la performance des modèles Yi à la qualité des données résultant de nos efforts en ingénierie des données. Pour le pré-entraînement, nous avons construit un corpus de 3,1 trillions de tokens en anglais et en chinois en utilisant un pipeline en cascade de déduplication et de filtrage de qualité des données. Pour l'affinage, nous avons perfectionné un petit ensemble de données d'instructions (moins de 10K) sur plusieurs itérations, de sorte que chaque instance a été vérifiée directement par nos ingénieurs en apprentissage automatique. Pour le domaine vision-langage, nous combinons le modèle de langage de chat avec un encodeur de transformateur visuel et entraînons le modèle à aligner les représentations visuelles sur l'espace sémantique du modèle de langage. Nous étendons également la longueur du contexte à 200K grâce à un pré-entraînement continu léger et démontrons une forte performance de récupération de type "aiguille dans une botte de foin". Nous montrons que l'extension de la profondeur du point de contrôle pré-entraîné par un pré-entraînement continu améliore encore les performances. Nous croyons qu'étant donné nos résultats actuels, continuer à augmenter les paramètres des modèles en utilisant des données soigneusement optimisées conduira à des modèles frontaliers encore plus performants.
English
We introduce the Yi model family, a series of language and multimodal models that demonstrate strong multi-dimensional capabilities. The Yi model family is based on 6B and 34B pretrained language models, then we extend them to chat models, 200K long context models, depth-upscaled models, and vision-language models. Our base models achieve strong performance on a wide range of benchmarks like MMLU, and our finetuned chat models deliver strong human preference rate on major evaluation platforms like AlpacaEval and Chatbot Arena. Building upon our scalable super-computing infrastructure and the classical transformer architecture, we attribute the performance of Yi models primarily to its data quality resulting from our data-engineering efforts. For pretraining, we construct 3.1 trillion tokens of English and Chinese corpora using a cascaded data deduplication and quality filtering pipeline. For finetuning, we polish a small scale (less than 10K) instruction dataset over multiple iterations such that every single instance has been verified directly by our machine learning engineers. For vision-language, we combine the chat language model with a vision transformer encoder and train the model to align visual representations to the semantic space of the language model. We further extend the context length to 200K through lightweight continual pretraining and demonstrate strong needle-in-a-haystack retrieval performance. We show that extending the depth of the pretrained checkpoint through continual pretraining further improves performance. We believe that given our current results, continuing to scale up model parameters using thoroughly optimized data will lead to even stronger frontier models.
PDF663December 15, 2024