Yi : Modèles de fondation ouverts par 01.AIYi: Open Foundation Models by 01.AI
Nous présentons la famille de modèles Yi, une série de modèles linguistiques et multimodaux qui démontrent de solides capacités multidimensionnelles. La famille de modèles Yi est basée sur des modèles linguistiques pré-entraînés de 6B et 34B, que nous étendons ensuite à des modèles de chat, des modèles à contexte long de 200K, des modèles à profondeur augmentée et des modèles vision-langage. Nos modèles de base obtiennent de solides performances sur un large éventail de benchmarks comme MMLU, et nos modèles de chat affinentés atteignent un taux de préférence humaine élevé sur les principales plateformes d'évaluation comme AlpacaEval et Chatbot Arena. En nous appuyant sur notre infrastructure de supercalcul évolutive et l'architecture classique des transformateurs, nous attribuons principalement la performance des modèles Yi à la qualité des données résultant de nos efforts en ingénierie des données. Pour le pré-entraînement, nous avons construit un corpus de 3,1 trillions de tokens en anglais et en chinois en utilisant un pipeline en cascade de déduplication et de filtrage de qualité des données. Pour l'affinage, nous avons perfectionné un petit ensemble de données d'instructions (moins de 10K) sur plusieurs itérations, de sorte que chaque instance a été vérifiée directement par nos ingénieurs en apprentissage automatique. Pour le domaine vision-langage, nous combinons le modèle de langage de chat avec un encodeur de transformateur visuel et entraînons le modèle à aligner les représentations visuelles sur l'espace sémantique du modèle de langage. Nous étendons également la longueur du contexte à 200K grâce à un pré-entraînement continu léger et démontrons une forte performance de récupération de type "aiguille dans une botte de foin". Nous montrons que l'extension de la profondeur du point de contrôle pré-entraîné par un pré-entraînement continu améliore encore les performances. Nous croyons qu'étant donné nos résultats actuels, continuer à augmenter les paramètres des modèles en utilisant des données soigneusement optimisées conduira à des modèles frontaliers encore plus performants.