每日精選AI研究論文及翻譯
語言模型,如GPT-3.5和ChatGPT,展示了出色的能力,能夠遵循多樣的人類指示並執行各種任務。然而,通過使用一系列基本的表格理解任務來探測語言模型時,我們觀察到今天的語言模型在許多與表格相關的任務上仍然不夠優化,這可能是因為它們主要是在一維自然語言文本上預先訓練,而關係表格是二維對象。 在這項工作中,我們提出了一個新的「表格微調」範式,我們繼續訓練/微調像GPT-3.5和ChatGPT這樣的語言模型,使用從真實表格合成的多樣化表格任務作為訓練數據,旨在增強語言模型理解表格並執行表格任務的能力。我們展示了我們的結果Table-GPT模型展示了(1)更好的表格理解能力,通過在廣泛的表格任務中持續優於普通的GPT-3.5和ChatGPT,包括保留未見過的任務,以及(2)強大的泛化能力,它能夠回應多樣的人類指示來執行新的表格任務,方式類似於GPT-3.5和ChatGPT。
本文介紹了 PaLI-3,一種更小、更快、更強大的視覺語言模型(VLM),與大小為其 10 倍的類似模型相比表現優異。為了達到這種強大性能,我們比較了使用分類目標預訓練的 Vision Transformer(ViT)模型和對比式(SigLIP)預訓練模型。我們發現,儘管在標準圖像分類基準測試上表現稍遜,基於 SigLIP 的 PaLI 在各種多模態基準測試中表現優異,特別是在定位和視覺文本理解方面。我們將 SigLIP 圖像編碼器擴展到 20 億參數,並在多語言跨模態檢索上實現了新的最先進水準。我們希望 PaLI-3,僅具有 50 億參數,重新激發對複雜 VLM 基本組件的研究,並可能推動新一代規模化模型的發展。
量化是為大型語言模型(LLMs)提供服務的不可或缺技術,最近也開始應用於 LoRA 微調。在本研究中,我們專注於對預先訓練模型同時應用量化和 LoRA 微調的情況。在這種情況下,通常會觀察到完全微調和量化加 LoRA 微調方法在下游任務表現之間存在一致的差距。為此,我們提出了LoftQ(LoRA微調感知量化),這是一個新穎的量化框架,同時對LLM進行量化並找到適當的低秩初始化值以進行LoRA微調。這種初始化有助於減輕量化模型和全精度模型之間的差異,並顯著改善下游任務的泛化性能。我們在自然語言理解、問答、摘要和自然語言生成任務上評估了我們的方法。實驗表明,我們的方法非常有效,在具有挑戰性的2位元和2/4位元混合精度範圍中特別優於現有的量化方法。我們將釋出我們的程式碼。
大型語言模型(LLMs)已展示出在實時電腦環境(例如MiniWoB++)中規劃和執行高級目標的能力不斷增強。為了執行任務,最近的研究通常要求模型通過監督學習或少/多次提示從任務的跟踪示例中學習。如果沒有這些跟踪示例,一個代理如何能夠自主學習並改進其在電腦上的控制仍然是一個挑戰,這限制了代理執行新任務的能力。我們通過一個零-shot代理方法來解決這個問題,該代理不需要給定的專家跟踪。我們的代理計劃在部分觀察到的環境中執行動作,並通過自我反思和結構化思維管理來識別並從錯誤中學習,逐步推進任務。在MiniWoB++的簡單任務中,我們展示了我們的零-shot代理通常優於最近的SoTAs,並具有更高效的推理能力。對於更複雜的任務,我們的反思代理表現與先前最佳模型相當,即使以前的作品具有訪問專家跟踪或額外屏幕信息的優勢。
當應用於問答和其他文本生成任務時,語言模型(LMs)可以通過生成式查詢(從輸出分佈中抽樣答案)或歧視式查詢(使用它們對一組候選輸出進行評分或排名)。這些程序有時會產生非常不同的預測。我們如何調和互相不相容的評分程序,以獲得一致的LM預測?我們引入了一種新的、無需訓練的、博弈論程序,用於語言模型解碼。我們的方法將語言模型解碼視為一個正規化的不完全信息序列信號博弈 - 我們稱之為共識博弈 - 在這個過程中,生成器試圖使用自然語言句子向歧視器傳達一個抽象的正確性參數。我們開發了計算程序,用於找到這個博弈的近似均衡,從而產生一種我們稱之為均衡排名的解碼算法。應用於大量任務(包括閱讀理解、常識推理、數學問題解決和對話),均衡排名一致地,有時顯著地,優於現有的LM解碼程序 - 在多個基準測試中,我們觀察到將均衡排名應用於LLaMA-7B比使用更大的LLaMA-65B和PaLM-540B模型效果更好。這些結果突顯了博弈論工具在解決LM中的真實性和一致性等基本挑戰方面的潛力。
大型語言模型(LLMs)在各種自然語言處理(NLP)任務上展現出卓越的表現,通常能夠匹敵甚至超越最先進的任務特定模型。本研究旨在評估LLMs在財務推理能力方面的表現。我們利用特許金融分析師(CFA)課程的模擬考試題目,對ChatGPT和GPT-4在財務分析中進行全面評估,考慮零編碼(ZS)、思維鏈(CoT)和少編碼(FS)情境。我們對模型的表現和限制進行了深入分析,並評估它們通過CFA考試的可能性。最後,我們概述了潛在策略和改進措施,以增強LLMs在金融領域的應用性。從這個角度來看,我們希望這項工作為未來的研究開拓道路,持續通過嚴格評估來增強LLMs在財務推理方面的能力。
大型語言模型(LLMs)已經相當擅長解決像HumanEval或MBPP基準中的簡單編程任務。然而,解決更複雜和具競爭性的編程任務對這些模型來說仍然相當具挑戰性 - 可能是因為它們傾向於生成作為單塊代碼塊而不是將其分解為邏輯子任務和子模塊的解決方案。另一方面,有經驗的程序員本能地編寫具有抽象的模塊化代碼來解決複雜任務,通常重複使用先前開發的模塊。為了彌補這一差距,我們提出了CodeChain,這是一個新穎的推理框架,通過一系列自我修訂引導生成模塊化代碼,每個修訂都由前幾次迭代中生成的某些代表性子模塊引導。具體來說,CodeChain首先通過一系列思維鏈提示指導LLM生成模塊化代碼。然後通過兩個步驟迭代一系列自我修訂:1)提取和聚類生成的子模塊並選擇叢集代表作為更通用和可重用的實現,以及2)用這些選定的模塊實現擴充原始的思維鏈提示,指導LLM重新生成新的模塊化解決方案。我們發現,通過自然地鼓勵LLM重複使用先前開發和驗證的子模塊,CodeChain可以顯著提升生成解決方案的模塊性和正確性,實現在APPS上的相對pass@1改進35%,在CodeContests上為76%。它被證明對OpenAI LLMs以及像WizardCoder這樣的開源LLMs都是有效的。我們還進行了包括提示方法、叢集數量、模型大小、程序質量等在內的全面消融研究,以提供支持CodeChain成功的有用見解。
語音和文本是人類語言的兩種主要形式。研究界多年來一直專注於將語音映射到文本,或反之亦然。然而,在語言建模領域中,很少有工作是將它們聯合建模。鑒於此,我們探索了將語音單元和文本進行聯合語言建模。具體而言,我們比較不同的語音分詞器,將連續的語音信號轉換為離散單元,並使用不同的方法構建混合語音文本數據。我們引入自動指標來評估聯合語言建模器如何混合語音和文本。我們還對下游口語理解(SLU)任務上的語言建模進行微調,使用不同的模態(語音或文本),並測試其性能以評估模型對共享表示的學習情況。我們的結果顯示,通過使用我們提出的混合技術混合語音單元和文本,聯合語言建模在SLU任務上優於僅有語音的基準線,並展示了零-shot跨模態可轉移性。