每日精選AI研究論文及翻譯
大型語言模型(LLMs)展現出非常強大的能力。實現成功的關鍵因素之一是將LLM的輸出與人類偏好對齊。這種對齊過程通常僅需要少量數據來有效增強LLM的性能。儘管有效,但這一領域的研究涉及多個領域,所涉及的方法相對複雜難以理解。不同方法之間的關係尚未得到充分探討,限制了偏好對齊的發展。因此,我們將現有的流行對齊策略分解為不同組件,並提供一個統一的框架來研究當前的對齊策略,從而建立它們之間的聯繫。在這份調查中,我們將所有偏好學習策略分解為四個組件:模型、數據、反饋和算法。這種統一觀點提供了對現有對齊算法的深入理解,同時也為協同不同策略的優勢開啟了可能性。此外,我們提供了流行現有算法的詳細工作示例,以便讀者全面理解。最後,基於我們的統一觀點,我們探討了將大型語言模型與人類偏好對齊的挑戰和未來研究方向。
多模式大型語言模型(MLLMs)的發展取得了顯著進展。然而,多模式指導數據的數量和質量已成為其發展的重要瓶頸。手動創建多模式指導數據既耗時又低效,對於生成高度複雜的指導提出了挑戰。此外,從黑盒商業模型(例如GPT-4o、GPT-4V)中提煉指導數據通常會導致簡化的指導數據,這限制了性能與這些模型的相應性能。策劃多樣且複雜的指導數據的挑戰仍然很大。我們提出了MMEvol,這是一個新穎的多模式指導數據演進框架,結合了細粒度感知演進、認知推理演進和互動演進。這種迭代方法突破了數據質量瓶頸,生成了一個複雜且多樣的圖像-文本指導數據集,從而賦予MLLMs增強的能力。從初始指令集SEED-163K開始,我們利用MMEvol系統地擴大指導類型的多樣性,整合推理步驟以增強認知能力,並從圖像中提取詳細信息以改善視覺理解和韌性。為了全面評估我們數據的有效性,我們使用演進後的數據訓練LLaVA-NeXT,並在13個視覺-語言任務中進行實驗。與使用種子數據訓練的基準相比,我們的方法在這些任務中實現了平均準確率提高3.1個百分點,並在其中9個任務上達到了最新技術水平(SOTA)的性能。
儘管近年來大型語言模型(LLMs)取得了顯著進展,極大增強了各種自然語言處理任務的生成能力,但LLMs仍然面臨直接處理檢索任務的限制。然而,許多實際應用需要無縫整合檢索和生成兩者。本文介紹了一種新穎高效的一次通過生成和檢索框架(OneGen),旨在提升LLMs在需要生成和檢索兩者的任務上的表現。所提出的框架通過將自回歸生成的檢索標記納入,將傳統上為生成和檢索分開的訓練方法相連接。這使得單個LLM能夠在統一的前向傳遞中同時處理兩個任務。我們在兩種不同類型的複合任務,RAG和實體鏈接上進行實驗,以驗證OneGen在訓練和推理中的可插拔性、有效性和效率。此外,我們的結果表明,在相同語境中整合生成和檢索保留了LLMs的生成能力,同時提升了檢索性能。據我們所知,OneGen是首個使LLMs能夠在生成過程中進行向量檢索的方法。
檢索增強生成(RAG)利用檢索工具訪問外部數據庫,從而通過優化上下文提高大型語言模型(LLMs)的生成質量。然而,現有的檢索方法固有地受限,因為它們只能在明確陳述的查詢和格式良好的知識之間進行相關性匹配,無法處理涉及模糊信息需求或非結構化知識的任務。因此,現有的RAG系統主要適用於直接的問答任務。在這項工作中,我們提出了MemoRAG,一種由長期記憶賦能的新型檢索增強生成範式。MemoRAG採用雙系統架構。一方面,它使用輕量但長程LLM來形成數據庫的全局記憶。一旦提出任務,它生成初步答案,提示檢索工具在數據庫中找到有用信息。另一方面,它利用昂貴但表達豐富的LLM,基於檢索到的信息生成最終答案。在這個通用框架基礎上,我們通過增強其提示機制和記憶容量進一步優化MemoRAG的性能。在我們的實驗中,MemoRAG在各種評估任務中取得優異表現,包括傳統RAG失敗的複雜任務和RAG常應用的直接任務。
隨著科學研究的蓬勃發展,研究人員面臨著艱鉅的任務,需要導航和閱讀龐大的文獻。現有的解決方案,如文件問答系統,未能有效提供個性化和最新信息。我們提出了Paper Copilot,這是一個自我演進、高效的LLM系統,旨在基於思維檢索、用戶檔案和高性能優化來協助研究人員。具體而言,Paper Copilot能夠提供個性化的研究服務,並保持實時更新的數據庫。定量評估顯示,Paper Copilot在高效部署後節省了69.92%的時間。本文詳細介紹了Paper Copilot的設計和實施,突出了其對個性化學術支持的貢獻以及簡化研究過程的潛力。
近年來,視覺語言模型在光學字符識別和幾何問題解決等任務中取得了顯著進展。然而,仍存在幾個關鍵問題:1)專有模型通常缺乏對其架構的透明度,而開源模型則需要更詳細的訓練策略消融。2)開源作品中的預訓練數據尚未得到充分探索,數據集是根據經驗添加的,使過程繁瑣。3)微調通常著重於添加數據集,導致回報遞減。為解決這些問題,我們提出以下貢獻:1)我們使用最新的視覺語言模型技術訓練了一個堅固的基準模型,引入了有效的改進,對每種技術進行了全面的消融和驗證。2)受到大型語言模型的最新研究啟發,我們使用困惑度篩選預訓練數據,選擇困惑度最低的數據進行訓練。這種方法使我們能夠在經過精心挑選的100萬數據集上進行訓練,達到了競爭性的性能。3)在視覺指導微調期間,當添加更多數據集僅帶來微小改進時,我們在不同數據集上使用模型湯。這些創新導致了一個具有90億參數的模型,與最先進的模型競爭。我們的策略高效且輕量,易於社區採納。
機器人模型,特別是那些使用大量數據訓練的模型,最近展示了豐富的現實世界操作和導航能力。幾個獨立的努力表明,在環境中提供足夠的訓練數據後,機器人策略可以推廣到該環境中展示的變化。然而,需要對每個新環境進行微調的機器人模型與語言或視覺模型形成鮮明對比,後者可以零-shot部署用於開放世界問題。在這項工作中,我們提出了機器人效用模型(RUMs),這是一個用於訓練和部署零-shot機器人策略的框架,可以直接推廣到新環境而無需進行任何微調。為了有效地創建RUMs,我們開發了新工具,可以快速收集移動操作任務的數據,將這些數據與多模態模仿學習的策略相整合,並在Hello Robot Stretch這種廉價的商品機器人上部署策略,並配備外部mLLM驗證器進行重試。我們訓練了五個這樣的效用模型,用於打開櫥櫃門、打開抽屜、撿起餐巾、撿起紙袋和重新定位倒下的物體。我們的系統在與未見過的物體互動的未知新環境中,平均實現了90%的成功率。此外,這些效用模型還可以在不需要進一步數據、訓練或微調的情況下成功應對不同的機器人和攝像機設置。我們的經驗教訓中,培訓數據的重要性超過了培訓算法和策略類別,指導數據縮放的必要性,多樣而高質量示範的必要性,以及改進個別環境性能的機器人內省和重試的方法。我們的代碼、數據、模型、硬件設計,以及我們的實驗和部署視頻均為開源,可在我們的項目網站上找到:https://robotutilitymodels.com
雖然大型語言模型(LLMs)展現出卓越的生成能力,但它們並非沒有缺陷,特別是在出現幻覺的情況下。當LLMs應用於特定語言和領域時,這個問題變得更加突出。例如,當處理中國古詩、諺語或成語時,LLMs可能生成無意義的信息,這是由於缺乏特定知識所致。為此,本文通過知識編輯引入了一個用於糾正LLMs中的中文知識的基準。具體來說,我們通過從各種來源收集七種類型的知識,包括古典文本、成語以及百度貼吧若字吧的內容,引入了一個新的中文數據集CKnowEdit,從而考慮了中文語言中固有的獨特的多音性、對立性和邏輯結構。通過對這個數據集的分析,我們揭示了當前LLMs在掌握中文方面所面臨的挑戰。此外,我們對最先進的知識編輯技術在這個數據集上的評估揭示了在糾正中文知識方面存在著巨大的進步空間。代碼和數據集可在https://github.com/zjunlp/EasyEdit找到。
本研究為卡拉卡爾帕克語提供了幾項貢獻:將FLORES+ devtest數據集翻譯成卡拉卡爾帕克語,建立了烏茲別克語-卡拉卡爾帕克語、俄羅斯語-卡拉卡爾帕克語和英語-卡拉卡爾帕克語各10萬對平行語料庫,並提供了針對這些語言的開源微調神經模型進行翻譯。我們的實驗比較了不同模型變體和訓練方法,展示了相對於現有基準的改進。這項工作作為開放語言數據倡議(OLDI)共享任務的一部分進行,旨在提升卡拉卡爾帕克語的機器翻譯能力,並促進自然語言處理技術中的語言多樣性擴展。
我們引入了一個基準來直接評估人類觀察者和視覺模型在3D形狀推斷任務上的對齊情況。我們利用認知科學中的實驗設計,該設計要求對物體形狀進行零樣本視覺推斷:參與者在給定一組圖像後,識別其中包含相同/不同物體,儘管視角變化很大。我們從包括常見物體(例如椅子)和抽象形狀(即程序生成的“無意義”物體)在內的各種圖像中汲取。在構建了2000多個獨特圖像集後,我們將這些任務交給人類參與者,從500多名參與者那裡收集了35,000次行為數據。這包括明確的選擇行為以及中間測量,如反應時間和凝視數據。然後,我們評估了常見視覺模型的性能(例如DINOv2、MAE、CLIP)。我們發現人類在性能上遠遠優於所有模型。使用多尺度評估方法,我們識別了模型和人類之間的潛在相似性和差異:儘管人類-模型性能存在相關性,但人類在挑戰性任務上分配了更多時間/處理。所有圖像、數據和代碼均可通過我們的項目頁面訪問。
隨著客戶對機器人技術和擴增實境智能解決方案的需求不斷增長,對從點雲中進行的3D物體檢測引起了相當大的關注。然而,現有的室內數據集單獨採集的數據量太小,多樣性不足,無法訓練出功能強大且通用的3D物體檢測模型。與此同時,更通用的方法利用基礎模型仍然在質量上不如基於特定任務的監督式訓練。在這項工作中,我們提出了一種簡單而有效的3D物體檢測模型,該模型是通過混合室內數據集進行訓練的,能夠在各種室內環境中運作。通過統一不同的標籤空間,使得能夠通過監督聯合訓練方案在多個數據集上學習強大的表示。所提出的網絡架構基於基本的Transformer編碼器構建,使其易於運行、自定義和擴展預測管道以實現實際應用。大量實驗表明,在6個室內基準測試中,相對於現有的3D物體檢測方法,取得了顯著的進展:ScanNet(+1.1 mAP50)、ARKitScenes(+19.4 mAP25)、S3DIS(+9.1 mAP50)、MultiScan(+9.3 mAP50)、3RScan(+3.2 mAP50)和ScanNet++(+2.7 mAP50)。代碼可在 https://github.com/filapro/unidet3d 找到。
本文介紹了對16個前沿大型語言模型(LLMs)在WebApp1K基準測試中的評估結果,這是一個旨在評估LLMs生成Web應用程式代碼能力的測試套件。結果顯示,儘管所有模型具有相似的基礎知識,但它們的表現卻因其犯錯的頻率而有所不同。通過分析代碼行數(LOC)和錯誤分佈,我們發現編寫正確代碼比生成不正確代碼更為複雜。此外,提示工程在減少錯誤方面的效果有限,除了特定情況外。這些發現表明,進一步改進編碼LLM應該強調模型的可靠性和減少錯誤。