每日精選AI研究論文及翻譯
大型語言模型(LLMs)由於在各種應用中表現出色,正受到學術界和工業界日益增長的青睞。隨著LLMs在研究和日常使用中持續發揮著重要作用,對其進行評估變得日益關鍵,不僅在任務層面上,還在社會層面上,以更好地了解其潛在風險。過去幾年來,人們已經做出了重大努力,從各種角度檢驗LLMs。本文全面回顧了這些LLMs評估方法,重點關注三個關鍵維度:評估什麼、在哪裡評估以及如何評估。首先,我們從評估任務的角度提供了一個概述,包括一般自然語言處理任務、推理、醫療用途、倫理、教育、自然和社會科學、代理應用等各個領域。其次,我們通過深入研究評估方法和基準來回答“在哪裡”和“如何”這兩個問題,這些是評估LLMs性能的關鍵組成部分。然後,我們總結了LLMs在不同任務中的成功和失敗案例。最後,我們闡明了LLMs評估面臨的幾個未來挑戰。我們的目標是為LLMs評估領域的研究人員提供寶貴的見解,從而促進更加高效的LLMs發展。我們的關鍵觀點是,評估應被視為促進LLMs發展的一門重要學科。我們一貫地在以下鏈接中維護相關的開源材料:https://github.com/MLGroupJLU/LLM-eval-survey。
儘管最近的語言模型具有接受長文本內容的能力,但對於語言模型如何有效利用更長的上下文仍知之甚少。我們分析語言模型在兩個需要識別其輸入上下文中相關信息的任務上的表現:多文件問答和鍵-值檢索。我們發現,當相關信息出現在輸入上下文的開頭或結尾時,表現通常最佳,但當模型必須訪問長上下文中的相關信息時,表現顯著下降。此外,隨著輸入上下文變得更長,即使對於明確設計為長上下文的模型,性能也會顯著降低。我們的分析有助於更好地理解語言模型如何使用其輸入上下文,並為未來長上下文模型提供新的評估協議。
許多關於幸福感的認知方法,例如辨識和重新構架無益思維,在過去幾十年中獲得了相當多的實證支持,然而在自助格式中仍然缺乏廣泛應用。阻礙這種應用的一個障礙是缺乏足夠具體和多樣化的專門練習材料。本研究探討了當前語言模型是否可以被利用來產生大量練習材料,展示標準無益思維模式與特定給定情境相匹配,並生成適當的積極重新構架建議。我們提出了PATTERNREFRAME,一個新穎的數據集,包含約10k個包含無益思維模式的思維示例,並根據給定的人物條件,附帶約27k個積極的重新構架。通過使用這個數據集來訓練和/或評估當前模型,我們展示現有模型已經可以成為強大的工具,幫助生成大量量身定制的練習材料和假設,而無需或僅需最少額外的模型訓練。
大型語言模型具有卓越的能力以上下文方式納入新資訊。然而,這種方法的完整潛力通常受到有效上下文長度的限制。解決這個問題的一種方法是賦予注意力層訪問外部記憶的能力,該記憶包含(鍵,值)對。然而,隨著文件數量的增加,相對於無關鍵而言,相關鍵的比例會降低,使模型更多地專注於無關鍵。我們確認了一個重要挑戰,稱為分心問題,其中與不同語義值相關聯的鍵可能重疊,使它們難以區分。為了應對這個問題,我們引入了專注Transformer(FoT),這是一種採用對比學習靈感的訓練過程的技術。這種新方法增強了(鍵,值)空間的結構,實現了上下文長度的延伸。我們的方法允許對現有的大型模型進行微調,以延長它們的有效上下文。透過我們對3B和7B OpenLLaMA檢查點的微調來證明這一點。由此產生的模型,我們稱之為LongLLaMA,在需要長上下文的任務中取得了進展。我們進一步說明,我們的LongLLaMA模型能夠熟練地管理256k上下文長度以進行密碼檢索。
本文專注於 Whisper,這是一個最近使用龐大的 680,000 小時標註語音語料庫在多樣條件下錄製的自動語音識別模型。我們首先展示了一個有趣的發現,即儘管 Whisper 對現實世界的背景聲音(例如音樂)非常穩健,但其音頻表示實際上並非噪聲不變,而是與非語音聲音高度相關,這表明 Whisper 識別語音時受到噪聲類型的影響。基於這一發現,我們通過凍結 Whisper 的主幹並在其頂部訓練一個輕量級音頻標記模型,建立了統一的音頻標記和語音識別模型 Whisper-AT。通過不到 1% 的額外計算成本,Whisper-AT 可以在單次前向傳遞中識別音頻事件,除了識別口語文本。
自回歸大型語言模型(LLMs)在各種自然語言生成任務中取得了顯著進展。然而,由於自回歸逐令牌生成,它們產生了高計算成本和延遲。為了解決這個問題,已提出了幾種方法來使用提前退出策略來降低計算成本。這些策略使得在不對每個令牌應用完整計算圖的情況下更快地生成文本成為可能。雖然現有的令牌級提前退出方法對於在線推斷顯示出有希望的結果,但無法直接應用於批量推斷和鍵值緩存。這是因為它們必須等到批次中的最後一個令牌退出後才能停止計算。這嚴重限制了這些技術的實際應用。在本文中,我們提出了一種簡單而有效的令牌級提前退出方法SkipDecode,旨在與批量推斷和KV緩存無縫配合。它通過在每個序列位置為每個批次中的每個令牌設置單一退出點來克服先前的限制。它還保證退出點的單調下降,從而消除了需要重新計算先前令牌的KV緩存的必要性。與先前的作品不同,我們的方法不會過早終止計算,而是跳過較低到中間層,將大部分計算資源用於上層,使後續令牌能夠從先前令牌的計算支出中受益。我們的實驗結果表明,SkipDecode可以在各種任務中實現2倍至5倍的推斷加速,並且幾乎沒有回歸。這是通過使用13億和67億參數的OPT模型實現的,同時與批量處理和KV緩存優化技術直接兼容。
我們使用精心設計的實驗協議來評估現有的基礎模型在視頻理解能力上的表現,這包括三個標誌性任務(動作識別、時間定位和時空定位)、社群廣泛接受的八個數據集,以及四種適應方法來調整基礎模型(FM)以應用於下游任務。此外,我們提出一個標量VideoGLUE分數(VGS)來衡量基礎模型(FM)在適應一般視頻理解任務時的效力和效率。我們的主要發現如下。首先,在這項研究中研究的六個FM中,任務專用模型明顯優於它們,這與FM在自然語言和圖像理解中取得的成就形成鮮明對比。其次,具有視頻模態的視頻原生FM通常優於具有圖像模態的FM,能更好地對運動豐富的視頻進行分類,定位動作時間,以及理解包含多個動作的視頻。第三,視頻原生FM在對下游任務進行輕微適應(例如凍結FM主幹)時可以表現良好,而圖像原生FM在完全端到端微調中勝出。前兩點觀察顯示了在視頻專注的FM上進行研究的必要性和巨大機遇,而最後一點證實了在評估FM時任務和適應方法都很重要。