每日精選AI研究論文及翻譯
大型語言模型(LLMs)以其在各種應用中無與倫比的文本生成能力而成為一項開創性技術。儘管如此,人們仍然關注其生成內容的準確性和適切性。一種當代方法論,即自我校正,已被提出作為解決這些問題的方法。本文基於這一前提,批判性地探討了自我校正在LLMs中的作用和效力,闡明了其真正潛力和局限性。我們研究的核心是內在自我校正的概念,即LLM試圖僅基於其固有能力來糾正其初始回應,而無需外部反饋的支持。在推理的背景下,我們的研究表明,LLMs在沒有外部反饋的情況下很難自我校正其回應,有時,甚至在自我校正後其性能可能會下降。基於這些見解,我們提出了未來研究和實際應用在這一領域的建議。
最近,許多條件圖像生成和編輯模型已被開發用於不同的下游任務,包括文本到圖像生成、文本引導圖像編輯、主題驅動圖像生成、控制引導圖像生成等。然而,我們觀察到在實驗條件方面存在巨大的不一致性:數據集、推斷和評估指標等方面的不一致性使公平比較變得困難。本文提出了ImagenHub,這是一個一站式庫,用於標準化所有條件圖像生成模型的推斷和評估。首先,我們定義了七個突出的任務,並為它們精心挑選了高質量的評估數據集。其次,我們建立了統一的推斷流程,以確保公平比較。第三,我們設計了兩個人類評估分數,即語義一致性和感知質量,並提供了評估生成圖像的全面指南。我們訓練專家評估員根據提出的指標來評估模型輸出。我們的人類評估在76%的模型上實現了高達Krippendorff's alpha的工作者間一致性。我們全面評估了約30個模型,並觀察到三個關鍵結論:(1)現有模型的性能通常令人不滿,除了文本引導圖像生成和主題驅動圖像生成外,74%的模型的總體得分低於0.5。 (2)我們檢驗了已發表論文中的聲稱,發現83%的聲稱成立,但也有少數例外。 (3)除主題驅動圖像生成外,現有自動評估指標的Spearman's相關性均不高於0.2。展望未來,我們將繼續努力評估新發表的模型,並更新我們的排行榜以跟踪條件圖像生成領域的進展。
鏈條思維(CoT)提示對於語言模型在推理任務中展現出令人印象深刻的表現,但通常需要推理過程的標記示例。在這項工作中,我們引入了一種新的提示方法,稱為類比提示(Analogical Prompting),旨在自動引導大型語言模型的推理過程。受類比推理的啟發,這是一種認知過程,人類在其中從相關的過去經驗中汲取力量來應對新問題,我們的方法提示語言模型在解決給定問題之前自行生成相關示例或知識。這種方法具有幾個優勢:它消除了標記或檢索示例的需要,提供了通用性和便利性;它還可以根據每個問題定制生成的示例和知識,提供了適應性。實驗結果表明,我們的方法在各種推理任務中表現優於0-shot CoT和手動少量樣本 CoT,包括在GSM8K和MATH中解決數學問題,以及在Codeforces中生成代碼和在BIG-Bench中進行其他推理任務。
近期大型語言模型(LLMs)展現出對智能代理和下一代自動化的巨大潛力,但目前缺乏一個系統性基準來評估LLMs作為代理的能力。我們介紹了SmartPlay:既是一個具有挑戰性的基準,也是一種評估LLMs作為代理的方法論。SmartPlay 包含 6 種不同的遊戲,包括猜拳、河內塔、Minecraft。每個遊戲都具有獨特的設定,提供高達 20 種評估設定和無限的環境變化。SmartPlay 中的每個遊戲都獨特挑戰智能LLM代理的 9 項重要能力子集,包括推理對象依賴、提前規劃、空間推理、從歷史中學習和理解隨機性。每個遊戲測試的能力子集之間的區別使我們能夠分析每項能力。SmartPlay 不僅作為評估LLM代理整體表現的嚴格測試場所,還作為識別當前方法論中存在差距的路線圖。我們在 github.com/LLMsmartplay/SmartPlay 上發布了我們的基準。