Yi: 01.AI 的開放基礎模型Yi: Open Foundation Models by 01.AI
我們介紹了Yi模型系列,這是一系列展示出強大多維能力的語言和多模型。Yi模型系列基於6B和34B預訓練語言模型,然後我們將其擴展為聊天模型、200K長上下文模型、深度擴展模型和視覺語言模型。我們的基本模型在各種基準測試中表現出色,如MMLU,而我們微調的聊天模型在AlpacaEval和Chatbot Arena等主要評估平台上取得了強大的人類偏好率。借助我們可擴展的超級計算基礎設施和經典的Transformer架構,我們主要將Yi模型的性能歸因於我們的數據工程工作所產生的數據質量。在預訓練方面,我們使用級聯數據去重和質量過濾管道構建了3100億個英文和中文語料庫。在微調方面,我們通過多次迭代對小規模(不到10K)的指令數據集進行了精煉,以便每個實例都經過我們的機器學習工程師直接驗證。對於視覺語言,我們將聊天語言模型與視覺Transformer編碼器相結合,並訓練模型將視覺表示對齊到語言模型的語義空間。我們通過輕量級持續預訓練將上下文長度擴展到200K,展示了強大的大海捞针檢索性能。我們展示了通過持續預訓練擴展預訓練檢查點的深度進一步改善了性能。我們相信,根據我們目前的結果,繼續通過經過徹底優化的數據來擴大模型參數,將會帶來更強大的前沿模型。