每日精選AI研究論文及翻譯
如今,大型語言模型(LLMs)通常透過提供一些工具使用的示範來學習新工具。不幸的是,示範難以取得,若選擇了不適當的示範,可能導致不良的偏見使用。即使在示範容易取得的罕見情況下,也沒有原則性的選擇協議來確定應提供多少以及哪些示範。隨著任務變得更加複雜,選擇搜索會以組合方式增長,最終變得難以處理。我們的研究提供了一種替代示範的方法:工具文件。我們主張使用工具文件,即個別工具使用的描述,而非示範。我們透過對視覺和語言模式下6個任務的三項主要實證發現來證實我們的主張。首先,在現有基準測試中,僅使用工具文件的零猜測提示足以引出正確的工具使用,實現與少猜測提示相當的性能。其次,在新收集的實際工具使用數據集上,其中包含數百個可用的工具API,我們展示了工具文件比示範顯著更有價值,零猜測文件明顯優於無文件的少猜測。第三,我們通過僅使用最新釋出的看不見的最先進模型作為工具,解決圖像生成和視頻跟踪問題,突出了工具文件的好處。最後,我們強調使用工具文件自動啟用新應用的可能性:僅使用GroundingDino、Stable Diffusion、XMem和SAM的文件,LLMs就可以重新創造剛釋出的Grounded-SAM和Track Anything模型的功能。
最近在大型語言模型(LLMs)方面取得的進展,尤其是鏈式思維(CoT)提示的發明,使得解決推理問題成為可能。然而,即使是最強大的LLMs仍在努力應對需要非線性思維和多步推理的更複雜問題。在這項工作中,我們探索LLMs是否具有識別自身錯誤的能力,而無需倚賴外部資源。特別是,我們調查它們是否能夠用於識別逐步推理中的個別錯誤。為此,我們提出了一種零-shot驗證方案來識別此類錯誤。然後,我們使用這個驗證方案來改善問答表現,通過在不同生成答案上進行加權投票。我們在三個數學數據集-GSM8K、MathQA和MATH上測試該方法,發現它成功識別錯誤,進而提高最終預測性能。
我們考慮如何引發大型語言模型(LLMs)中的組合泛化能力問題,並提出一種新型提示策略。組合泛化使LLMs能夠解決比它們見過的更難的問題(即易到難的泛化),這是類似人類智能的關鍵推理能力。然而,即使是當前最先進的LLMs仍然在這種推理形式上遇到困難。為了彌補這一差距,我們提出了技能上下文(SKiC)提示,指導LLMs如何組合基本技能來解決更複雜的問題。我們發現,在同一提示上下文中展示技能和組合示例至關重要。通過僅有兩個範例,我們的SKiC提示激發了技能和其組合能力之間的強大協同作用。值得注意的是,它使LLMs能夠解決需要創新技能組合的未見問題,在廣泛的具有挑戰性的組合任務上實現了近乎完美的泛化。有趣的是,SKiC提示揭示了LLMs的潛在潛力,使它們能夠利用在早期預訓練階段獲得的內部技能,即使這些技能在提示上下文中並未明確呈現。這使得LLMs能夠通過激活和組合內部能力來解決未見的複雜問題。憑藉這些卓越特點,SKiC提示能夠在具有挑戰性的數學推理基準測試(例如MATH)上實現最先進的性能。
自我監督學習是深度學習中一個有前景的範式,它通過構建需要學習有用表示的假設任務,從未標記數據中進行學習。在自然語言處理中,主要的假設任務是遮罩語言建模(MLM),而在計算機視覺中存在一個等效的任務稱為遮罩圖像建模(MIM)。然而,MIM 是具有挑戰性的,因為它需要在準確的位置預測語義內容。例如,給定一張狗的不完整圖片,我們可以猜測有一條尾巴,但無法確定其確切位置。在這項工作中,我們提出了FlexPredict,這是一個能夠應對這一挑戰的隨機模型,通過將位置不確定性納入模型中。具體來說,我們將模型條件設置為隨機遮罩標記位置,以引導模型學習更能抵抗位置不確定性的特徵。我們的方法提高了一系列任務的下游性能,例如,與 MIM 基線相比,FlexPredict 在使用 ViT-B 進行 ImageNet 線性探測時提升了 1.6%,在使用 ViT-L 進行半監督視頻分割時提升了 2.5%。
在區分生成文本和自然文本之間的任務日益具有挑戰性。在這種情況下,水印技術被提出作為一種將生成文本歸因於特定模型的有前途的技術。它改變了抽樣生成過程,以在生成輸出中留下一個看不見的痕跡,從而方便後續檢測。本研究基於三個理論和實證考慮因素,鞏固了大型語言模型的水印技術。首先,我們引入了新的統計測試,提供了強大的理論保證,即使在低誤報率(小於10^{-6})下仍然有效。其次,我們通過在自然語言處理領域中使用經典基準來比較水印的有效性,獲得了有關它們在現實應用中的見解。第三,我們為可以訪問大型語言模型的情況以及多比特水印技術開發了先進的檢測方案。