每日精選AI研究論文及翻譯
我們介紹了Yi模型系列,這是一系列展示出強大多維能力的語言和多模型。Yi模型系列基於6B和34B預訓練語言模型,然後我們將其擴展為聊天模型、200K長上下文模型、深度擴展模型和視覺語言模型。我們的基本模型在各種基準測試中表現出色,如MMLU,而我們微調的聊天模型在AlpacaEval和Chatbot Arena等主要評估平台上取得了強大的人類偏好率。借助我們可擴展的超級計算基礎設施和經典的Transformer架構,我們主要將Yi模型的性能歸因於我們的數據工程工作所產生的數據質量。在預訓練方面,我們使用級聯數據去重和質量過濾管道構建了3100億個英文和中文語料庫。在微調方面,我們通過多次迭代對小規模(不到10K)的指令數據集進行了精煉,以便每個實例都經過我們的機器學習工程師直接驗證。對於視覺語言,我們將聊天語言模型與視覺Transformer編碼器相結合,並訓練模型將視覺表示對齊到語言模型的語義空間。我們通過輕量級持續預訓練將上下文長度擴展到200K,展示了強大的大海捞针檢索性能。我們展示了通過持續預訓練擴展預訓練檢查點的深度進一步改善了性能。我們相信,根據我們目前的結果,繼續通過經過徹底優化的數據來擴大模型參數,將會帶來更強大的前沿模型。
從人類反饋中學習的強化學習(RLHF)已成為將LLM輸出與人類偏好對齊的主導方法。受RLHF成功的啟發,我們研究了從反饋中學習的多種算法的性能(專家迭代、Proximal Policy Optimization (PPO)、Return-Conditioned RL)在改善LLM推理能力方面的表現。我們研究了提供給LLM的稀疏和密集獎勵,這些獎勵是通過啟發式方法和通過學習的獎勵模型提供的。此外,我們從多個模型大小和初始化開始,有的進行了監督微調(SFT)數據,有的沒有。總的來說,我們發現所有算法的表現大致相當,專家迭代在大多數情況下表現最佳。令人驚訝的是,我們發現專家迭代的樣本複雜度與PPO相似,從預訓練檢查點收斂最多需要10^6個樣本。我們調查了這種情況的原因,得出結論,在RL訓練期間,模型未能明顯地探索超出SFT模型已經產生的解決方案。此外,我們討論了在SFT訓練期間maj@1和pass@96指標表現之間的權衡,以及相反,RL訓練如何同時改善兩者。最後,我們討論了我們的研究結果對RLHF以及RL在LLM微調中未來角色的影響。
大型語言模型(LLMs)已經開啟了新的能力和應用;然而,評估其與人類偏好的一致性仍然存在著重大挑戰。為了應對這個問題,我們引入了 Chatbot Arena,這是一個基於人類偏好來評估LLMs的開放平台。我們的方法採用了兩兩比較的方式,並通過眾包的方式利用來自多樣化用戶群體的意見。該平台已運作了數個月,累積了超過240K的投票。本文描述了該平台,分析了我們迄今收集的數據,並解釋了我們正在使用的經過驗證的統計方法,以便對模型進行高效準確的評估和排名。我們確認眾包問題足夠多樣化和有區分性,而眾包的人類投票與專家評分者的投票達成了良好的一致性。這些分析共同為 Chatbot Arena 的可信度奠定了堅實的基礎。由於其獨特價值和開放性,Chatbot Arena 已成為最受尊敬的LLM排行榜之一,被領先的LLM開發者和公司廣泛引用。我們的演示可在 https://chat.lmsys.org 上公開獲得。
自從 DragGAN 出現以來,基於點的圖像編輯引起了顯著的關注。最近,DragDiffusion 通過將這種拖曳技術應用於擴散模型,進一步推動了生成質量。儘管取得了巨大成功,但這種拖曳方案存在兩個主要缺點,即不準確的點跟踪和不完整的運動監督,這可能導致令人不滿意的拖曳結果。為了應對這些問題,我們通過設計一種穩定而精確的基於拖曳的編輯框架,即 StableDrag,來解決問題,其中包括設計一種具有區分性的點跟踪方法和一種基於信心的潛在增強策略以進行運動監督。前者使我們能夠精確定位更新的控制點,從而提高長距離操作的穩定性,而後者則負責確保在所有操作步驟中優化的潛在盡可能高質量。由於這些獨特設計,我們實例化了兩種類型的圖像編輯模型,包括 StableDrag-GAN 和 StableDrag-Diff,通過對 DragBench 進行廣泛的定性實驗和定量評估,實現了更穩定的拖曳性能。
工具對於大型語言模型(LLMs)在外部環境中獲取最新資訊並採取重要行動至關重要。現有關於工具增強的LLMs的研究主要集中在工具的廣泛覆蓋和添加新工具的靈活性。然而,一個令人驚訝地鮮少被研究的關鍵方面是LLM如何準確地使用其接受訓練的工具。我們發現,包括GPT-4和專門為工具使用進行微調的開源LLMs在實際使用中僅達到30%至60%的正確率,遠遠不足以可靠地應用。我們提出了一種受生物啟發的方法,用於工具增強的LLMs,即模擬試錯(STE),該方法組織了三個成功使用工具行為的關鍵機制:試錯、想像和記憶。具體而言,STE利用LLM的“想像力”來模擬使用工具的可能情景,之後LLM與工具互動以從執行反饋中學習。短期和長期記憶均被用於分別改善探索的深度和廣度。在ToolBench上的全面實驗表明,STE顯著提高了LLMs對工具的學習效果,無論是在上下文學習還是微調設置下,為Mistral-Instruct-7B帶來了46.7%的提升,使其能夠勝過GPT-4。我們還展示了通過簡單的經驗重播策略有效地持續學習工具。
視覺語言模型(VLMs)如GPT-4V最近在各種視覺語言任務上展示了令人難以置信的進展。我們深入探討基於視覺的演繹推理,這是一個更複雜但較少被探索的領域,並發現了當前領先技術的VLMs中以前未曝光的盲點。具體來說,我們利用雷文進階矩陣(RPMs)來評估VLMs僅依賴視覺線索進行多跳關聯和演繹推理的能力。我們對幾個流行的VLMs進行了全面評估,採用了標準策略,如上下文學習、自我一致性和思維鏈(CoT),在包括Mensa智商測試、智力測試和RAVEN在內的三個不同數據集上進行評估。結果顯示,儘管LLMs在基於文本的推理方面具有令人印象深刻的能力,但在視覺演繹推理方面,我們仍然遠遠沒有達到可比擬的熟練水平。我們發現,對LLMs有效的某些標準策略並不完全適用於視覺推理任務所提出的挑戰。此外,詳細分析顯示,VLMs難以解決這些任務主要是因為它們無法感知和理解RPM示例中的多個混淆抽象模式。
先前人們普遍認為數學能力只會在大規模的通用語言模型中出現,或者需要進行大量與數學相關的預訓練。本文顯示,具有通用預訓練的LLaMA-2 7B模型已展現出強大的數學能力,其在GSM8K和MATH基準測試中,當從256個隨機生成的回應中選擇最佳回答時,準確率分別達到97.7%和72.0%。目前基本模型的主要問題在於難以一貫地引發其固有的數學能力。值得注意的是,對於第一個答案的準確率分別下降至49.5%和7.9%。我們發現,簡單地擴大SFT數據可以顯著提高生成正確答案的可靠性。然而,公開可用的數學問題稀缺限制了大規模擴展的潛力。為了克服這一限制,我們使用合成數據,證明其幾乎與真實數據一樣有效,並在擴展至約一百萬個樣本時並未顯示明顯飽和。這種簡單直接的方法使用LLaMA-2 7B模型在GSM8K和MATH上實現了82.6%和40.6%的準確率,分別超過先前模型14.2%和20.8%。我們還提供了關於不同推理複雜性和錯誤類型的擴展行為的見解。
我們提出了 Pix2Gif,一種適用於圖像轉 GIF(視頻)生成的運動引導擴散模型。我們通過將任務定義為一個由文本和運動幅度提示引導的圖像翻譯問題,來獨特地解決這個問題,如 teaser 圖所示。為確保模型遵循運動引導,我們提出了一個新的運動引導變形模塊,用於在兩種類型的提示條件下空間轉換源圖像的特徵。此外,我們引入了一個感知損失,以確保轉換後的特徵圖保持在與目標圖像相同的空間中,確保內容一致性和連貫性。為了準備模型訓練,我們通過從 TGIF 視頻標題數據集中提取一致的圖像幀來精心編輯數據,該數據集提供了有關主題的時間變化的豐富信息。在預訓練之後,我們以零樣本方式將我們的模型應用於多個視頻數據集。大量的定性和定量實驗證明了我們模型的有效性 - 它不僅捕捉了來自文本的語義提示,還捕捉了來自運動引導的空間提示。我們使用 16xV100 GPU 的單節點訓練了所有模型。代碼、數據集和模型已在以下網址公開:https://hiteshk03.github.io/Pix2Gif/。
X射線由於比自然光具有更強的穿透力,因此廣泛應用於傳輸成像。在渲染新視角的X射線投影時,現有方法主要基於NeRF,但存在訓練時間長和推斷速度慢的問題。本文提出了一種基於3D高斯飛濺的框架,名為X-Gaussian,用於X射線新視角合成。首先,我們重新設計了一個受X射線成像各向同性特性啟發的輻射高斯點雲模型。我們的模型在學習預測3D點的輻射強度時排除了視角方向的影響。基於此模型,我們開發了一種可微的輻射光柵化(DRR),並實現了CUDA版本。其次,我們定制了一種角度-姿勢立方體均勻初始化(ACUI)策略,直接使用X射線掃描儀的參數來計算相機信息,然後在包圍被掃描物體的立方體內均勻採樣點位置。實驗表明,我們的X-Gaussian在享受不到15%的訓練時間和超過73倍的推斷速度的情況下,優於最先進的方法6.5 dB。在稀疏視圖CT重建上的應用也揭示了我們方法的實際價值。代碼和模型將在https://github.com/caiyuanhao1998/X-Gaussian 上公開。訓練過程可視化的視頻演示在https://www.youtube.com/watch?v=gDVf_Ngeghg。