HuggingFace Daily Papers

每日論文

每日精選AI研究論文及翻譯

選擇日期

4 papers found

DSPy：將聲明式語言模型調用編譯為自我改進的流水線
DSPy: Compiling Declarative Language Model Calls into Self-Improving Pipelines

Oct 5

ByOmar Khattab, Arnav Singhvi, Paridhi Maheshwari, Zhiyuan Zhang, Keshav Santhanam, Sri Vardhamanan, Saiful Haq, Ashutosh Sharma, Thomas T. Joshi, Hanna Moazam, Heather Miller, Matei Zaharia, Christopher Potts

機器學習社群正迅速探索提示語言模型（LMs）的技術，並將它們堆疊成解決複雜任務的流程。不幸的是，現有的LM流程通常是使用硬編碼的“提示模板”實現的，即通過試錯發現的冗長字符串。為了更系統地開發和優化LM流程，我們引入了DSPy，一種將LM流程抽象為文本轉換圖的編程模型，即命令式計算圖，其中LMs通過聲明性模塊調用。DSPy模塊是參數化的，這意味著它們可以通過創建和收集示範來學習如何應用提示、微調、擴增和推理技術的組合。我們設計了一個編譯器，將優化任何DSPy流程以最大化給定的指標。我們進行了兩個案例研究，表明簡潔的DSPy程序可以表達和優化複雜的LM流程，這些流程可以思考數學文字問題，應對多跳檢索，回答複雜問題，並控制代理循環。在經過幾分鐘的編譯後，幾行DSPy允許GPT-3.5和llama2-13b-chat自我引導流程，優於標準的少樣本提示（一般分別高出25%和65%）以及具有專家創建示範的流程（分別高達5-46%和16-40%）。此外，編譯為開放且相對較小的LMs，如770M參數T5和llama2-13b-chat的DSPy程序，與依賴專家編寫的提示鏈的專有GPT-3.5方法競爭。DSPy可在https://github.com/stanfordnlp/dspy找到。

大型語言模型與具有心靈理論的代理人有多遠？
How FaR Are Large Language Models From Agents with Theory-of-Mind?

Oct 4

ByPei Zhou, Aman Madaan, Srividya Pranavi Potharaju, Aditya Gupta, Kevin R. McKee, Ari Holtzman, Jay Pujara, Xiang Ren, Swaroop Mishra, Aida Nematzadeh, Shyam Upadhyay, Manaal Faruqui

「思考是為了行動。」人類可以從觀察中推斷他人的心智狀態，這種能力被稱為心智理論（ToM），並隨後根據這些推斷實際行動。現有的問答基準，如ToMi，要求模型回答有關故事中角色信仰的問題，但並不測試模型是否能利用這些推斷來引導其行動。我們提出了一種新的大型語言模型（LLMs）評估範式：思考為了行動（T4D），要求模型將對他人心智狀態的推斷與社交場景中的行動相連接。對T4D的實驗表明，像GPT-4和PaLM 2這樣的LLMs似乎擅長追蹤故事中角色的信念，但它們在將這種能力轉化為策略行動方面遇到困難。我們的分析顯示，LLMs面臨的核心挑戰在於識別有關心智狀態的隱含推斷，而不是像ToMi那樣明確問及，這些推斷導致在T4D中選擇正確的行動。為了彌合這一差距，我們引入了一個零-shot提示框架，名為預見和反思（FaR），該框架提供一種鼓勵LLMs預測未來挑戰並思考潛在行動的推理結構。FaR將GPT-4在T4D上的表現從50%提升至71%，優於其他提示方法，如思維鏈和自問自答。此外，FaR可以泛化應用於多樣的分布之外的故事結構和場景，這些場景也需要ToM推斷來選擇行動，一貫優於其他方法，包括少量上下文學習。

大型語言模型串聯與混合思維表示法，以實現成本效益的推理
Large Language Model Cascades with Mixture of Thoughts Representations for Cost-efficient Reasoning

Oct 4

ByMurong Yue, Jie Zhao, Min Zhang, Liang Du, Ziyu Yao

大型語言模型（LLMs）如 GPT-4 在各種任務中展現出卓越的表現，但這種強大的表現通常伴隨著使用付費 API 服務的高昂成本。在本文中，我們的動機是研究構建一個 LLMS 級聯以節省使用LLMs的成本，特別是用於執行推理（例如數學、因果）任務。我們的級聯管道遵循一個直覺，即較簡單的問題可以由一個較弱但更經濟實惠的LLM解決，而只有具有挑戰性的問題才需要更強大且更昂貴的LLM。為了實現這種決策，我們考慮較弱LLM的“答案一致性”作為問題難度的信號，並提出了幾種答案抽樣和一致性檢查的方法，包括利用兩種思維表徵的混合（即“思維鏈”和“思維程序”）。通過對六個推理基準數據集進行實驗，其中 GPT-3.5-turbo 和 GPT-4 分別作為較弱和較強的LLMs，我們證明了我們提出的LLMS級聯可以達到與僅使用較強LLM相當的性能，但僅需其成本的40%。

EcoAssistant：更經濟、更準確地使用LLM助手
EcoAssistant: Using LLM Assistant More Affordably and Accurately

Oct 3

ByJieyu Zhang, Ranjay Krishna, Ahmed H. Awadallah, Chi Wang

今天，用戶將大型語言模型（LLMs）作為助手來回答需要外部知識的查詢；他們詢問特定城市的天氣、股票價格，甚至詢問附近特定位置的位置。這些查詢需要LLM生成調用外部API以回答用戶問題的代碼，然而LLMs很少在第一次嘗試時生成正確的代碼，需要在執行結果上進行迭代代碼優化。此外，使用LLM助手支持高查詢量可能會很昂貴。在這項工作中，我們提出了一個名為EcoAssistant的框架，使LLMs能夠更經濟、更準確地回答基於代碼的查詢。EcoAssistant包含三個組件。首先，它允許LLM助手與自動代碼執行器對話，以迭代地優化代碼或基於執行結果生成答案。其次，我們使用一個LLM助手的層次結構，該結構嘗試使用較弱、更便宜的LLMs回答查詢，然後再轉向更強大、更昂貴的LLMs。第三，我們從過去成功查詢中檢索解決方案作為上下文演示，以幫助後續查詢。根據經驗，我們展示了EcoAssistant在經濟性和準確性方面具有明顯優勢，成功率比GPT-4高出10個百分點，成本不到GPT-4的50%。