每日精選AI研究論文及翻譯
最近對大型語言模型(LLMs)的進展展示了在自然語言理解和生成任務中的顯著能力。隨著LLMs數量的增加,如何利用多個LLMs的集體專業知識是一個令人興奮的開放方向。為了實現這一目標,我們提出了一種新方法,通過混合式代理(MoA)方法利用多個LLMs的集體優勢。在我們的方法中,我們構建了一個分層MoA架構,其中每一層包含多個LLM代理。每個代理將前一層代理的所有輸出作為輔助信息,用於生成其回應。MoA模型在AlpacaEval 2.0、MT-Bench和FLASK上實現了最先進的性能,超越了GPT-4 Omni。例如,我們的MoA僅使用開源LLMs,在AlpacaEval 2.0中領先GPT-4 Omni很大差距,獲得了65.1%的得分,而GPT-4 Omni則為57.5%。
最近,檢索增強生成(RAG)作為一種有希望的解決方案,用以緩解大型語言模型(LLM)在知識不足方面的不足。然而,現有的RAG數據集並未充分代表現實世界問答(QA)任務的多樣性和動態性。為彌合這一差距,我們引入了全面的RAG基準(CRAG),這是一個包含4,409個問答對和模擬網絡和知識圖(KG)搜索的虛構API的事實問答基準。CRAG旨在涵蓋五個領域和八個問題類別中的各種問題,反映了從熱門到長尾的各種實體流行度,以及從年份到秒鐘的時間動態。我們在這個基準上的評估凸顯了實現完全可信問答的差距。儘管大多數先進的LLM在CRAG上的準確率僅達到34%以下,但直接添加RAG只能將準確率提高到44%。最先進的工業RAG解決方案僅能回答63%的問題而無幻覺。CRAG還顯示在回答具有較高動態性、較低流行度或較高複雜性事實的問題時準確率更低,這暗示了未來的研究方向。CRAG基準奠定了KDD Cup 2024挑戰的基礎,在競賽的前50天內吸引了成千上萬的參與者和提交。我們承諾維護CRAG,以服務研究社區,推進RAG解決方案和通用QA解決方案。
我們介紹了 WildBench,這是一個自動化評估框架,旨在使用具有挑戰性的真實用戶查詢來評估大型語言模型(LLMs)。WildBench 包含了從超過一百萬個人-聊天機器人對話日誌中精心挑選出的 1,024 個任務。為了使用 WildBench 進行自動評估,我們開發了兩個指標,即 WB-Reward 和 WB-Score,可以使用像 GPT-4-turbo 這樣的先進LLMs 進行計算。WildBench 評估使用任務特定的檢查表系統地評估模型輸出,並提供結構化解釋,用以證明分數和比較,從而產生更可靠和可解釋的自動判斷。WB-Reward 使用模型回應之間的細粒度兩兩比較,生成五種潛在結果:更好得多、稍微更好、稍微更差、更差得多或平局。與以往僅使用單個基準模型進行評估不同,我們選擇了三個基準模型,其性能水平不同,以確保全面的兩兩評估。此外,我們提出了一種簡單的方法來緩解長度偏差,即將“稍微更好/更差”的結果轉換為“平局”,如果獲勝者的回應比輸家的回應多 K 個字符以上。WB-Score 逐個評估模型輸出的質量,使其成為一個快速且具有成本效益的評估指標。WildBench 的結果顯示與 Chatbot Arena 上難度較高任務的人工投票 Elo 評分之間存在較強的相關性。具體而言,WB-Reward 與排名靠前的模型實現了 0.98 的皮爾森相關性。此外,WB-Score 達到了 0.95,超過了 ArenaHard 的 0.91 和 AlpacaEval2.0 的 0.89,以及常規勝率的 0.87。
生成式人工智慧在改革影像和影片生成等領域取得了顯著進展。這些進步是由創新的演算法、架構和資料推動的。然而,生成模型的快速擴散凸顯了一個關鍵缺陷:缺乏可信賴的評估指標。目前的自動評估方法,如FID、CLIP、FVD等,常常無法捕捉與生成輸出相關的微妙品質和使用者滿意度。本文提出了一個名為GenAI-Arena的開放平台,用於評估不同的影像和影片生成模型,使用者可以積極參與評估這些模型。通過利用集體使用者反饋和投票,GenAI-Arena旨在提供更具民主性和準確性的模型表現評估。它分為三個領域,分別是文本轉影像生成、文本轉影片生成和影像編輯。目前,我們涵蓋了總共27個開源生成模型。GenAI-Arena已運作了四個月,從社群中積累了超過6000次投票。我們描述了我們的平台,分析了數據,並解釋了用於排名模型的統計方法。為了進一步推動建立基於模型的評估指標的研究,我們釋出了我們三個任務的偏好數據的清理版本,即GenAI-Bench。我們促使現有的多模型,如Gemini、GPT-4o,模仿人類投票。我們計算模型投票與人類投票之間的相關性,以了解它們的評判能力。我們的結果顯示,現有的多模型在評估生成的視覺內容方面仍然落後,即使最佳模型GPT-4o在品質子分數上也只達到0.22的皮爾遜相關係數,並在其他方面表現得像隨機猜測一樣。
在評估模型回應的信心時,估計不確定性或信心可能對於評估對回應的信任以及整個模型都具有重要意義。本文探討了如何估計大型語言模型(LLMs)的回應信心問題,僅透過黑盒或查詢訪問它們。我們提出了一個簡單且可擴展的框架,在這個框架中,我們設計了新穎的特徵並在這些特徵上訓練了一個(可解釋的)模型(即邏輯回歸),以估計信心。我們實證表明,我們的簡單框架在估計 flan-ul2、llama-13b 和 mistral-7b 的信心方面非常有效,並在一些情況下在基準數據集(如 TriviaQA、SQuAD、CoQA 和 Natural Questions)上比現有的黑盒信心估計方法表現出超過 10% 的優勢(在 AUROC 上)。此外,我們的可解釋方法提供了有關預測信心的特徵的洞察,這導致了一個有趣且有用的發現,即我們為一個 LLM 構建的信心模型在給定數據集上可以零-shot 泛化到其他模型。
大型語言模型(LLMs)具有令人印象深刻的能力,為重新想像用戶的輸入體驗提供了強大的方法。本文展示了Proofread,這是一個由 Gboard 中的伺服器端LLM 提供動力的新穎功能,可通過單次點擊實現無縫的句子級和段落級校正。我們在本文中描述了完整的系統,從數據生成、指標設計到模型調整和部署。為了獲得具有足夠質量的模型,我們實施了一個針對在線使用案例量身定制的謹慎數據合成流程,設計了多面向的指標,採用了兩階段調整方法來獲得專用於該功能的LLM:基礎質量的監督微調(SFT),然後是針對性細化的強化學習(RL)調整方法。具體來說,我們發現在 Rewrite 和 proofread 任務上的順序調整在 SFT 階段產生了最佳質量,並提出了全局和直接獎勵在 RL 調整階段以尋求進一步改進。在人工標記的黃金集上進行的大量實驗顯示,我們調整後的 PaLM2-XS 模型實現了 85.56\% 的優質比例。我們通過在 Google Cloud 上的 TPU v5 上提供模型,將該功能推出到 Pixel 8 設備,每天有數千名活躍用戶。通過量化、桶推斷、文本分割和推測解碼,服務延遲顯著降低。我們的演示可在 https://youtu.be/4ZdcuiwFU7I{Youtube} 中觀看。
我們介紹了NATURAL PLAN,這是一個以自然語言為基礎的實際規劃基準,包含三個關鍵任務:旅行規劃、會議規劃和日曆排程。我們專注於具有關於任務的完整信息的LLMs的規劃能力評估,通過提供來自工具(如Google Flights、Google Maps和Google Calendar)的輸出作為模型的上下文。這消除了在規劃評估LLMs時需要使用工具環境的需求。我們觀察到NATURAL PLAN對於最先進模型來說是一個具有挑戰性的基準。例如,在旅行規劃中,GPT-4和Gemini 1.5 Pro僅能分別達到31.1%和34.8%的解決率。我們發現隨著問題複雜度的增加,模型的表現急劇下降:當有10個城市時,所有模型的表現都低於5%,突顯了最先進LLMs在自然語言規劃方面存在顯著差距。我們還對NATURAL PLAN進行了廣泛的消融研究,以進一步闡明自我校正、少量樣本泛化和在長上下文中進行規劃等方法對改善LLM規劃的(無)效性。
從擴展先進 AI 系統中預測行為的可預測性是一個非常理想的特性。儘管有許多文獻已經確立了有關預訓練性能如何擴展的知識,但有關特定下游能力如何擴展的文獻則相當混亂。在這項研究中,我們退後一步,並問:為什麼預測特定下游能力隨規模變化仍然是困難的?儘管許多因素肯定是負責的,但我們識別出一個新因素,使得在廣泛使用的多選問答基準上建模擴展行為具有挑戰性。我們使用五種模型家族和十二個確立良好的多選基準,展示了下游性能是通過負對數似然逐步降低性能與規模之間的統計關係而計算的一系列轉換。然後,我們揭示了導致這種降級的機制:下游指標需要將正確選擇與少數特定錯誤選擇進行比較,這意味著準確預測下游能力需要預測不僅是隨著規模正確選擇上的概率質量如何集中,還需要預測隨著規模錯誤選擇上的概率質量如何波動。我們實證研究了正確選擇上的概率質量如何隨著計算量的增加而與錯誤選擇上的概率質量共變,表明錯誤選擇的擴展法則可能是可以實現的。我們的工作還解釋了為什麼預訓練擴展法則通常被認為比下游能力更具可預測性,並有助於建立對前沿 AI 模型的擴展可預測性評估。
大型語言模型(LLMs)的出現使得採用並行訓練技術成為必要,這涉及部署數千個 GPU 來訓練單個模型。不幸的是,我們發現當前並行訓練的效率通常不盡理想,主要是由於以下兩個主要問題。首先,硬體故障是不可避免的,導致訓練任務中斷。無法快速識別故障組件導致 GPU 資源的大量浪費。其次,由於 GPU 必須等待參數同步完成才能進行下一輪計算,網絡擁塞可能會大大增加 GPU 的等待時間。為應對這些挑戰,本文介紹了一種基於通信的解決方案,即 C4。C4 的關鍵見解有兩個方面。首先,在並行訓練中,集體通信呈現周期性和均勻特徵,因此任何異常肯定是由某種硬體故障引起的。通過利用這一特徵,C4 可以迅速識別故障組件,迅速隔離異常並重新啟動任務,從而避免由於異常檢測延遲而導致的資源浪費。其次,集體通信的可預測通信模型涉及少量大流量,使 C4 能夠有效執行流量規劃,從而大幅減少網絡擁塞。C4 已在我們的生產系統中廣泛實施,將由錯誤引起的額外開銷減少約 30%,並且對於某些通信成本適中的應用程序,運行時性能提高約 15%。