每日精選AI研究論文及翻譯
機器學習社群正迅速探索提示語言模型(LMs)的技術,並將它們堆疊成解決複雜任務的流程。不幸的是,現有的LM流程通常是使用硬編碼的“提示模板”實現的,即通過試錯發現的冗長字符串。為了更系統地開發和優化LM流程,我們引入了DSPy,一種將LM流程抽象為文本轉換圖的編程模型,即命令式計算圖,其中LMs通過聲明性模塊調用。DSPy模塊是參數化的,這意味著它們可以通過創建和收集示範來學習如何應用提示、微調、擴增和推理技術的組合。我們設計了一個編譯器,將優化任何DSPy流程以最大化給定的指標。我們進行了兩個案例研究,表明簡潔的DSPy程序可以表達和優化複雜的LM流程,這些流程可以思考數學文字問題,應對多跳檢索,回答複雜問題,並控制代理循環。在經過幾分鐘的編譯後,幾行DSPy允許GPT-3.5和llama2-13b-chat自我引導流程,優於標準的少樣本提示(一般分別高出25%和65%)以及具有專家創建示範的流程(分別高達5-46%和16-40%)。此外,編譯為開放且相對較小的LMs,如770M參數T5和llama2-13b-chat的DSPy程序,與依賴專家編寫的提示鏈的專有GPT-3.5方法競爭。DSPy可在https://github.com/stanfordnlp/dspy找到。
「思考是為了行動。」人類可以從觀察中推斷他人的心智狀態,這種能力被稱為心智理論(ToM),並隨後根據這些推斷實際行動。現有的問答基準,如ToMi,要求模型回答有關故事中角色信仰的問題,但並不測試模型是否能利用這些推斷來引導其行動。我們提出了一種新的大型語言模型(LLMs)評估範式:思考為了行動(T4D),要求模型將對他人心智狀態的推斷與社交場景中的行動相連接。對T4D的實驗表明,像GPT-4和PaLM 2這樣的LLMs似乎擅長追蹤故事中角色的信念,但它們在將這種能力轉化為策略行動方面遇到困難。我們的分析顯示,LLMs面臨的核心挑戰在於識別有關心智狀態的隱含推斷,而不是像ToMi那樣明確問及,這些推斷導致在T4D中選擇正確的行動。為了彌合這一差距,我們引入了一個零-shot提示框架,名為預見和反思(FaR),該框架提供一種鼓勵LLMs預測未來挑戰並思考潛在行動的推理結構。FaR將GPT-4在T4D上的表現從50%提升至71%,優於其他提示方法,如思維鏈和自問自答。此外,FaR可以泛化應用於多樣的分布之外的故事結構和場景,這些場景也需要ToM推斷來選擇行動,一貫優於其他方法,包括少量上下文學習。
大型語言模型(LLMs)如 GPT-4 在各種任務中展現出卓越的表現,但這種強大的表現通常伴隨著使用付費 API 服務的高昂成本。在本文中,我們的動機是研究構建一個 LLMS 級聯以節省使用LLMs的成本,特別是用於執行推理(例如數學、因果)任務。我們的級聯管道遵循一個直覺,即較簡單的問題可以由一個較弱但更經濟實惠的LLM解決,而只有具有挑戰性的問題才需要更強大且更昂貴的LLM。為了實現這種決策,我們考慮較弱LLM的“答案一致性”作為問題難度的信號,並提出了幾種答案抽樣和一致性檢查的方法,包括利用兩種思維表徵的混合(即“思維鏈”和“思維程序”)。通過對六個推理基準數據集進行實驗,其中 GPT-3.5-turbo 和 GPT-4 分別作為較弱和較強的LLMs,我們證明了我們提出的LLMS級聯可以達到與僅使用較強LLM相當的性能,但僅需其成本的40%。
今天,用戶將大型語言模型(LLMs)作為助手來回答需要外部知識的查詢;他們詢問特定城市的天氣、股票價格,甚至詢問附近特定位置的位置。這些查詢需要LLM生成調用外部API以回答用戶問題的代碼,然而LLMs很少在第一次嘗試時生成正確的代碼,需要在執行結果上進行迭代代碼優化。此外,使用LLM助手支持高查詢量可能會很昂貴。在這項工作中,我們提出了一個名為EcoAssistant的框架,使LLMs能夠更經濟、更準確地回答基於代碼的查詢。EcoAssistant包含三個組件。首先,它允許LLM助手與自動代碼執行器對話,以迭代地優化代碼或基於執行結果生成答案。其次,我們使用一個LLM助手的層次結構,該結構嘗試使用較弱、更便宜的LLMs回答查詢,然後再轉向更強大、更昂貴的LLMs。第三,我們從過去成功查詢中檢索解決方案作為上下文演示,以幫助後續查詢。根據經驗,我們展示了EcoAssistant在經濟性和準確性方面具有明顯優勢,成功率比GPT-4高出10個百分點,成本不到GPT-4的50%。