每日精選AI研究論文及翻譯
最近,使用強大的專有大型語言模型(LLM)(例如 GPT-4)作為長篇回應的評估器已成為事實上的標準。然而,對於有大規模評估任務和自定標準考量(例如兒童易讀性)的從業者來說,使用專有LLMs作為評估器是不可靠的,因為其封閉源代碼性質、無法控制的版本控制和高昂的成本。在這項工作中,我們提出了Prometheus,這是一個完全開源的LLM,當配有適當的參考資料(參考答案、分數標準)時,其評估能力與GPT-4相當。我們首先構建了反饋收集,這是一個新的數據集,包括1K個精細的分數標準、20K條指示和由GPT-4生成的10萬條回應和語言反饋。使用反饋收集,我們訓練了Prometheus,一個13B的評估器LLM,可以根據用戶提供的自定義分數標準評估任何給定的長篇文本。實驗結果顯示,當使用45個自定義分數標準進行評估時,Prometheus與人類評估者的皮爾森相關性為0.897,與GPT-4(0.882)相當,遠優於ChatGPT(0.392)。此外,使用1222個自定義分數標準在四個基準(MT Bench、Vicuna Bench、Feedback Bench、Flask Eval)上與GPT-4進行相關性測量,顯示出相似的趨勢,增強了Prometheus作為評估器LLM的能力。最後,與明確訓練於人類偏好數據集的開源獎勵模型相比,Prometheus在兩個人類偏好基準(HHH Alignment 和 MT Bench Human Judgment)上實現了最高的準確性,突顯了其作為通用獎勵模型的潛力。我們在 https://github.com/kaistAI/Prometheus 上開源了我們的代碼、數據集和模型。
計畫與寫作是長篇敘事文本生成中常見的階層式方法,首先創建一個計畫來指導敘事寫作。根據這種方法,一些研究依賴於簡單地提示大型語言模型進行規劃,這通常會產生次優結果。在本文中,我們提出了一個名為評估引導的迭代計畫提取框架,用於長篇敘事文本生成(EIPE-text),該框架從敘事語料庫中提取計畫,並利用提取的計畫來構建更好的規劃器。EIPE-text 包括三個階段:計畫提取、學習和推理。在計畫提取階段,它從敘事語料庫中迭代地提取和改進計畫,並構建計畫語料庫。我們提出了一個基於問答(QA)的評估機制,自動評估計畫並生成詳細的計畫改進指示,以指導迭代改進。在學習階段,我們通過與計畫語料庫進行微調或在計畫語料庫中使用示例進行上下文學習,建立一個更好的規劃器。最後,我們利用階層式方法生成長篇敘事。我們在小說和故事敘述領域評估了 EIPE-text 的有效性。基於 GPT-4 的評估和人類評估都表明,我們的方法能夠生成更具連貫性和相關性的長篇敘事。我們的程式碼將在未來發布。
我們探索語言作為視覺與語言導航的知覺表示的應用。我們的方法使用現成的視覺系統(用於圖像標題生成和物體檢測)將代理人每個時間步的自我中心全景視圖轉換為自然語言描述。然後,我們微調預訓練的語言模型,根據當前視圖和軌跡歷史來選擇一個動作,以最好地實現導航指令。與標準設置相比,標準設置會使預訓練的語言模型直接與預訓練的視覺模型提取的連續視覺特徵一起工作,我們的方法則使用(離散的)語言作為知覺表示。我們在R2R視覺與語言導航基準上探索了我們基於語言的導航(LangNav)方法的兩個用例:從提示的大型語言模型(GPT-4)生成合成軌跡,以便微調較小的語言模型;以及模擬到真實的轉移,我們將在模擬環境(ALFRED)上學習的策略轉移到現實世界環境(R2R)。我們的方法被發現在只有少量金標軌跡(10-100)可用的情況下改進了依賴視覺特徵的強基線,展示了將語言用作導航任務的知覺表示的潛力。