每日精選AI研究論文及翻譯
檢索擴增生成(RAG)已成為增強大型語言模型(LLMs)的強大範式,通過外部知識檢索。儘管引起廣泛關注,現有學術研究主要集中在單輪RAG上,卻忽略了應對現實應用中多輪對話複雜性的重要空白。為彌補這一缺口,我們引入了CORAL,一個旨在評估RAG系統在現實多輪對話環境中的大規模基準測試。CORAL包括從維基百科自動提取的多樣資訊尋求對話,並應對開放域覆蓋、知識密集度、自由形式回應和話題轉換等關鍵挑戰。它支持對話式RAG的三個核心任務:段落檢索、回應生成和引用標記。我們提出了一個統一框架,標準化各種對話式RAG方法,並在CORAL上對這些方法進行全面評估,顯示了改進現有方法的重大機會。
由於在各個領域表現出色,Transformer已成為基礎模型中佔主導地位的架構。然而,擴展這些模型的巨大成本仍然是一個重大問題。這個問題主要源於它們依賴於線性投影中固定數量參數。當引入架構修改(例如通道維度)時,整個模型通常需要從頭開始重新訓練。隨著模型尺寸的持續增長,這種策略導致計算成本不斷增加,變得不可持續。為了克服這個問題,我們引入了TokenFormer,這是一種本來就可擴展的架構,利用注意機制不僅用於輸入標記之間的計算,還用於標記與模型參數之間的交互作用,從而增強架構的靈活性。通過將模型參數視為標記,我們用我們的標記-參數注意力層取代Transformer中的所有線性投影,其中輸入標記充當查詢,模型參數充當鍵和值。這種重新制定使得可以逐步且有效地擴展模型,而無需重新從頭訓練。我們的模型通過逐步添加新的鍵-值參數對,將參數從124M擴展到1.4B,實現了與從頭訓練的Transformer相當的性能,同時大大降低了訓練成本。代碼和模型可在https://github.com/Haiyang-W/TokenFormer找到。
近年來,在強化學習(RL)領域中出現了一種趨勢,即通過序列建模在大規模數據集上離線訓練大型動作模型。現有模型主要基於Transformer架構,這導致了強大的智能體。然而,由於Transformer-based方法推理時間較慢,因此對於機器人等實時應用來說是不切實際的。最近,提出了現代循環架構,如xLSTM和Mamba,這些架構在訓練期間展現了與Transformer架構類似的並行化優勢,同時提供了快速的推理能力。在這項工作中,我們研究了這些現代循環架構在大型動作模型中的適用性。因此,我們提出了一個帶有xLSTM核心的大型循環動作模型(LRAM),具有線性時間推理複雜度和自然序列長度外推能力。對來自6個領域的432個任務進行的實驗表明,LRAM在性能和速度方面與Transformer相比具有明顯優勢。
我們提出 REM,一個用於在影片中對通過自然語言描述的各種概念進行分割的框架。我們的方法利用在互聯網規模數據集上通過視頻擴散模型學習的視覺語言表示。我們方法的一個關鍵見解是在狹域引用對象分割數據集上微調時,盡可能保留生成模型的原始表示。因此,我們的框架能夠準確地分割和跟踪罕見和未見過的對象,儘管是在來自有限類別集的對象遮罩上進行訓練。此外,它可以推廣到非對象動態概念,例如在我們新引入的引用視頻處理分割(Ref-VPS)基準測試中展示的海浪拍打等。我們的實驗表明,REM 在域內數據集(如 Ref-DAVIS)上的表現與最先進的方法相當,同時在域外數據上的區域相似性方面超越它們多達十二個百分點,利用了互聯網規模預訓練的優勢。
大型語言模型(LLMs)在具有挑戰性的推理基準上表現出色,但也可能出現基本推理錯誤。當涉及理解LLMs推理能力背後的機制時,這種對比行為令人困惑。一個假設是,對常見推理基準的性能日益高且幾乎飽和可能是由於記憶類似問題所致。本文系統地探討了這一假設,使用基於“騎士和說謊者”(K&K)謎題的動態生成的邏輯推理基準,量化測量了推理任務中的記憶現象。我們發現,LLMs在微調後可以插值訓練謎題(實現接近完美的準確性),但在這些謎題稍作變動時失敗,表明模型在解決這些訓練謎題時嚴重依賴記憶。另一方面,我們展示,雖然微調導致大量記憶,但也始終改善了泛化性能。通過擾動測試、跨難度級別可轉移性、探測模型內部和使用錯誤答案進行微調的深入分析,我們表明LLMs學會在K&K謎題上推理,盡管訓練數據存在記憶現象。這種現象表明LLMs展現出記憶和真正推理能力之間的複雜相互作用。最後,我們的逐樣本記憶分數分析揭示了LLMs在解決邏輯謎題時如何在推理和記憶之間切換。我們的代碼和數據可在https://memkklogic.github.io 上獲得。
讀者對其閱讀的文本可能有不同的目標。這些目標是否可以從他們在文本上的眼動模式中解讀出來?在這項研究中,我們首次檢驗了是否可能解碼在日常生活中常見的兩種閱讀目標:尋求資訊和普通閱讀。利用大規模眼動追蹤數據,我們應用了眼動和文本的眾多最先進模型,涵蓋不同的架構和數據表示策略,並進一步引入了一個新的模型集成。我們系統地評估這些模型在三個泛化級別上:新的文本項目、新的參與者以及兩者的組合。我們發現眼動包含了對這一任務非常有價值的信號。我們進一步進行了一項錯誤分析,該分析基於先前對普通閱讀和尋求資訊之間差異的實證研究,並利用豐富的文本標註。這一分析揭示了文本項目和參與者眼動的關鍵特性,這些特性有助於解決這一任務的困難。
Mixture-of-Experts (MoE) 模型通過將每個標記路由到每一層中的少數專家,提高了密集語言模型的效率和可擴展性。在本文中,我們展示了一種對手可以安排他們的查詢出現在與受害者查詢相同的示例批次中,從而利用專家選擇路由來完全揭示受害者提示的方法。我們成功地展示了這種攻擊對一個雙層 Mixtral 模型的有效性,利用了 torch.topk CUDA 實現的處理並列情況的行為。我們的結果顯示,在我們考慮的情況下,我們可以使用 O({VM}^2) 個查詢(其中詞彙大小 V 和提示長度 M)或平均每個標記 100 個查詢來提取整個提示。這是第一個利用架構缺陷來提取用戶提示的攻擊,引入了一類新的大型語言模型漏洞。
開源大型語言模型在研究人員和從業者中越來越受歡迎並且變得越來越可用。雖然在開放權重模型上取得了重大進展,但領先的開放權重模型創建者尚未採用開放訓練數據的做法。與此同時,研究人員正致力於使語言模型更安全。我們提出了一個數據策劃流程,以減少基於公共領域數據訓練的模型產生的有害輸出。與網絡文本不同,使用公共領域數據存在獨特挑戰,因為這些來源在形式和內容上有所不同。許多來源是歷史文獻,是光學字符識別(OCR)的結果。因此,目前最先進的有毒過濾方法通常對於開放數據模型來說不切實際或不適用。在本文中,我們介紹了一個新的完全開源的流程,用於開放數據的有毒過濾。我們的貢獻有三個方面。我們創建了一個自定義訓練數據集 ToxicCommons,其中包含根據五個不同維度(種族/起源、性別/性別、宗教、能力歧視和暴力)進行分類的文本。我們使用這個數據集來訓練一個自定義分類器 Celadon,可以更有效地在更大範圍內檢測開放數據中的有害內容。最後,我們描述了一種平衡的內容過濾方法,優化了與用於訓練的過濾數據相關的安全過濾。
人類天生具有一個互補的學習系統,它將一般世界動態的緩慢學習與從新經驗中快速儲存情節記憶的能力連接在一起。然而,先前的視頻生成模型主要專注於通過預先在大量數據上進行預訓練的緩慢學習,忽略了對情節記憶存儲至關重要的快速學習階段。這種疏忽導致在生成較長視頻時,跨時間間隔的幀之間存在不一致性,因為這些幀超出了模型的上下文窗口。為此,我們引入了SlowFast-VGen,這是一種新穎的雙速學習系統,用於基於動作的長視頻生成。我們的方法結合了一個用於緩慢學習世界動態的遮罩條件視頻擴散模型,以及一個基於時間LoRA模塊的推理時快速學習策略。具體來說,快速學習過程根據本地輸入和輸出更新其時間LoRA參數,從而有效地將情節記憶存儲在其參數中。我們進一步提出了一個慢快學習迴圈算法,將內部快速學習迴圈無縫集成到外部緩慢學習迴圈中,實現對先前多情節經驗的回憶,以進行上下文感知技能學習。為了促進對近似世界模型的緩慢學習,我們收集了一個包含20萬個帶有語言動作標註的視頻的大規模數據集,涵蓋了各種情境。大量實驗表明,SlowFast-VGen在基於動作的視頻生成的各種指標上優於基線,實現了514的FVD分數,而基線為782,並在較長視頻中保持一致性,平均0.37個場景切換,而基線為0.89。慢快學習迴圈算法還顯著提高了長期規劃任務的性能。項目網站:https://slowfast-vgen.github.io
我們提出了一個針對大型語言模型的基準測試,旨在應對數據科學中最知識密集的任務之一:編寫特徵工程代碼,這需要領域知識以及對底層問題和數據結構的深刻理解。模型接收一個提示中的數據集描述,並被要求生成轉換該描述的代碼。評估分數是通過對修改後的數據集擬合的 XGBoost 模型的改進來衡量,與原始數據相比。通過對最先進模型的廣泛評估並與已建立的基準進行比較,我們證明了我們提案中的 FeatEng 能夠便宜高效地評估大型語言模型的廣泛能力,與現有方法形成對比。
醫學資訊檢索(MIR)對於從各種來源檢索相關的醫學知識至關重要,包括電子健康記錄、科學文獻和醫學數據庫。然而,在醫學領域實現有效的零樣本密集檢索面臨著重大挑戰,這是由於缺乏相關標記數據所導致的。本文介紹了一種名為自學習假設文件嵌入(SL-HyDE)的新方法來應對這個問題。SL-HyDE利用大型語言模型(LLMs)作為生成器,根據給定的查詢生成假設文件。這些生成的文件包含關鍵的醫學背景,引導密集檢索器識別最相關的文件。自學習框架逐漸改進偽文件生成和檢索,利用未標記的醫學語料庫,而無需任何相關標記數據。此外,我們提出了中文醫學資訊檢索基準(CMIRB),這是一個基於現實醫學場景的全面評估框架,包括五個任務和十個數據集。通過在CMIRB上對十個模型進行基準測試,我們建立了一個嚴格的標準,用於評估醫學資訊檢索系統。實驗結果表明,SL-HyDE在檢索準確性方面顯著優於現有方法,同時展示了在各種LLM和檢索器配置上的強大泛化性和可擴展性。CMIRB數據和評估代碼可在以下網址公開獲取:https://github.com/CMIRB-benchmark/CMIRB。