每日精選AI研究論文及翻譯
隨著大型語言模型(LLMs)在許多領域和任務中展示了其強大的能力,包括上下文理解、程式碼生成、語言生成、數據敘事等,許多數據分析師可能會擔心他們的工作是否會被人工智慧取代。這個爭議性話題引起了公眾的廣泛關注。然而,我們仍然處於意見分歧的階段,沒有任何明確的結論。受此啟發,我們在本研究中提出了一個研究問題:“GPT-4是否是一位優秀的數據分析師?”並旨在通過進行一對一的比較研究來回答這個問題。具體而言,我們將GPT-4視為一名數據分析師,以執行來自各個領域的數據庫的端對端數據分析。我們提出了一個框架來解決這些問題,通過精心設計GPT-4的提示來進行實驗。我們還設計了幾個特定任務的評估指標,以系統地比較幾位專業的人類數據分析師和GPT-4之間的表現。實驗結果顯示,GPT-4能夠達到與人類可比擬的性能。我們還就我們的結果進行了深入討論,以為在我們得出GPT-4可以取代數據分析師的結論之前,提供進一步研究的啟示。
隨著最近在實際應用中出現大型語言模型(LLMs),具備能夠有效檢測事實不一致性的方法至關重要,以減少錯誤資訊的傳播並提高對模型輸出的信任。在現有事實一致性基準測試中,我們發現一些大型語言模型(LLMs)在事實不一致性檢測的分類基準測試上與傳統非LLM方法相比表現競爭力強。然而,更仔細的分析顯示,大多數LLMs在任務的更複雜表述上失敗,並揭示現有評估基準存在問題,影響評估精度。為了解決這個問題,我們提出了一個新的不一致性檢測基準創建協議,並在一個名為SummEdits的包含10個領域的基準測試中實施。這個新的基準測試每個樣本的成本比以前的基準測試節省了20倍,並且高度可重現,我們估計標註者間的一致性約為0.9。大多數LLMs在SummEdits上表現困難,表現接近隨機機會。最佳表現模型GPT-4仍然比估計的人類表現低8%,突顯了LLMs在推理事實和檢測不一致性的能力方面存在的差距。
開放世界生存遊戲對AI演算法提出重大挑戰,因為它們需要多任務處理、深度探索和目標優先排序的要求。儘管強化學習(RL)在解決遊戲方面很受歡迎,但其高樣本複雜性限制了其在像Crafter或Minecraft這樣複雜的開放世界遊戲中的有效性。我們提出了一種新方法,名為SPRING,通過閱讀遊戲的原始學術論文並利用所學知識來推理和玩遊戲,使用一個大型語言模型(LLM)。在以LaTeX源碼作為遊戲背景並提供代理人當前觀察描述的情況下,我們的SPRING框架採用一個帶有遊戲相關問題的有向無環圖(DAG)作為節點,並以依賴關係作為邊。我們通過遍歷DAG並按照拓撲順序計算LLM對每個節點的回應,將環境中採取的最佳行動識別為LLM對最終節點的回答,直接轉化為環境行動。在我們的實驗中,我們研究了在Crafter開放世界環境設置下,不同提示形式誘發的上下文“推理”的質量。定量上,使用GPT-4的SPRING優於所有最先進的RL基準線,在未經任何訓練的情況下進行了100萬步的訓練。最後,我們展示了遊戲作為LLM測試平臺的潛力。
儘管神經機器翻譯(NMT)代表著機器翻譯(MT)的主流方法,NMT 模型的輸出仍需要經過翻譯後編輯來糾正錯誤並提升質量,特別是在關鍵情境下。在這項研究中,我們將翻譯後編輯的任務與大型語言模型(LLMs)形式化,並探索使用 GPT-4 自動編輯 NMT 輸出在多種語言對之間。我們的結果顯示,GPT-4 擅長進行翻譯後編輯,即使目標語言不是英語,也能產生有意義的編輯。值得注意的是,我們在 WMT-22 英中、英德、中英和德英語言對上,使用基於 GPT-4 的編輯後翻譯實現了最先進的表現,經由最先進的機器翻譯質量指標評估。
諸如思緒鏈提示等策略可通過將輸入示例分解為中間步驟來提高大型語言模型(LLMs)在複雜推理任務上的性能。然而,如何將這些方法應用於對長輸入文檔進行推理仍不清楚,因為在長文檔中,分解和每個中間步驟的輸出都不容易獲得。在這項工作中,我們提出了PEARL,一個提示框架,以改善對長文檔的推理,它包括三個階段:行動挖掘、計劃制定和計劃執行。具體而言,對於關於長文檔的問題,PEARL將問題分解為一系列行動(例如,摘要、查找事件、查找關係),然後在文檔上執行這些行動以獲得答案。PEARL的每個階段都是通過零-shot或少-shot提示LLMs(在我們的工作中是GPT-4)實現的,並且需要最少的人工輸入。我們在QuALITY數據集的一個具有挑戰性的子集上評估了PEARL,該數據集包含需要對長敘事文本進行複雜推理的問題。PEARL在這個數據集上優於零-shot和思緒鏈提示,消融實驗表明PEARL的每個階段對其性能至關重要。總的來說,PEARL是利用LLMs對長文檔進行推理的第一步。