01.AI 的开放基础模型Yi: Open Foundation Models by 01.AI
我们介绍了Yi模型系列,这是一系列展示出强大多维能力的语言和多模态模型。Yi模型系列基于6B和34B的预训练语言模型,然后我们将其扩展为聊天模型、200K长上下文模型、深度放大模型和视觉-语言模型。我们的基础模型在诸如MMLU之类的广泛基准测试中表现出色,我们微调的聊天模型在AlpacaEval和Chatbot Arena等主要评估平台上获得了强大的人类偏好率。借助我们可扩展的超级计算基础设施和经典的Transformer架构,我们主要将Yi模型的性能归因于我们的数据工程工作所带来的数据质量。对于预训练,我们使用级联数据去重和质量过滤流水线构建了3100亿个英文和中文语料库的标记。对于微调,我们通过多次迭代对小规模(不到10K)的指令数据集进行了优化,以确保每个实例都经过我们的机器学习工程师直接验证。对于视觉-语言,我们将聊天语言模型与视觉Transformer编码器相结合,并训练模型将视觉表示对齐到语言模型的语义空间。我们通过轻量级持续预训练将上下文长度扩展到200K,并展示了强大的大海捞针检索性能。我们展示了通过持续预训练扩展预训练检查点的深度进一步提高了性能。我们相信,鉴于我们目前的结果,继续使用经过彻底优化的数据来扩大模型参数规模将会带来更强大的前沿模型。