每日精選AI研究論文及翻譯
Transformer 已經在幾乎所有自然語言處理(NLP)任務中引起了革命,但面臨著隨著序列長度呈二次方增長的記憶和計算複雜度。相比之下,循環神經網絡(RNNs)展現出記憶和計算需求的線性增長,但由於在並行化和可擴展性方面存在限制,無法與 Transformer 达到相同的性能。我們提出了一種新穎的模型架構,稱為 Receptance Weighted Key Value(RWKV),結合了 Transformer 的高效並行訓練和 RNN 的高效推理。我們的方法利用線性注意機制,使我們能夠將模型制定為 Transformer 或 RNN,從而實現在訓練期間並行計算並在推理期間保持恆定的計算和記憶複雜度,使其成為第一個可擴展到數百億參數的非 Transformer 架構。我們的實驗顯示 RWKV 的性能與同等大小的 Transformer 相當,表明未來的工作可以利用這種架構創建更高效的模型。這項工作在協調序列處理任務中的計算效率和模型性能之間的權衡方面邁出了重要一步。
近期大型語言模型(LLMs)的發展令人印象深刻。然而,這些模型有時會出現不一致和問題行為,例如幻覺事實、生成有缺陷的程式碼,或創造冒犯性和有毒內容。與這些模型不同,人類通常利用外部工具來交叉檢查和完善其初始內容,例如使用搜索引擎進行事實核查,或使用程式碼解釋器進行除錯。受到這一觀察的啟發,我們引入了一個名為CRITIC的框架,允許LLMs(本質上是“黑盒子”)驗證並逐步修正其輸出,類似於人類與工具的互動方式。更具體地說,從初始輸出開始,CRITIC與適當的工具互動,評估文本的某些方面,然後根據在此驗證過程中獲得的反饋修訂輸出。包括自由形式問答、數學程序合成和毒性減少在內的全面評估顯示,CRITIC持續增強了LLMs的性能。與此同時,我們的研究凸顯了外部反饋在促進LLMs持續自我改進中的至關重要性。
基於文本驅動的擴散模型在圖像生成方面取得了前所未有的能力,而其視頻對應物仍然落後,這是由於時間建模的訓練成本過高。除了訓練負擔之外,生成的視頻還存在外觀不一致和結構閃爍的問題,尤其是在長視頻合成中。為應對這些挑戰,我們設計了一個名為 ControlVideo 的無需訓練的框架,以實現自然高效的文本到視頻生成。ControlVideo 是從 ControlNet 改編而來,利用從輸入運動序列中獲取的粗略結構一致性,並引入三個模塊來改進視頻生成。首先,為確保幀之間的外觀一致性,ControlVideo 在自注意力模塊中添加了完全跨幀交互。其次,為減輕閃爍效應,它引入了一個交錯幀平滑器,對交替幀進行幀內插值。最後,為高效生成長視頻,它利用分層採樣器分別合成每個具有整體一致性的短片段。憑藉這些模塊,ControlVideo 在廣泛的運動提示對上在量化和質化上均優於當前技術水準。值得注意的是,由於高效的設計,它可以在幾分鐘內使用一個 NVIDIA 2080Ti 生成短視頻和長視頻。代碼可在 https://github.com/YBYBZhang/ControlVideo 找到。
自主網頁導航的進展受到幾個方面的限制,包括對數十億次在線強化學習的探索性互動的依賴,以及特定領域模型設計的困難,使得難以利用豐富的跨領域數據進行泛化。在這項研究中,我們研究了基於數據驅動的離線訓練,用於具有視覺語言基礎模型的網頁代理。我們提出了一種指令跟隨的多模式代理WebGUM,它觀察網頁截圖和HTML頁面,並輸出網頁導航操作,如點擊和輸入。WebGUM通過在大量示範語料庫上聯合微調指令微調的語言模型和視覺變換器來進行訓練。我們在實驗中證明了這種方法能夠提高代理的基於視覺感知、HTML理解和多步推理的能力,明顯優於以往的研究。在MiniWoB基準測試中,我們比以前最佳的離線方法提高了31.9%以上,接近達到在線微調的最佳水準。在WebShop基準測試中,我們的30億參數模型的性能優於現有的最佳水準PaLM-540B。我們還使用我們訓練的模型收集了347K個高質量示範,比以前的工作大了38倍,並提供這些示範以促進未來在這個方向上的研究。
擴散模型是一類具有彈性的生成模型,通過對對數似然目標的近似進行訓練。然而,大多數擴散模型的應用案例並不關心似然,而是關注於人類感知的圖像質量或藥物有效性等下游目標。本文探討了強化學習方法,用於直接優化擴散模型以達到這些目標。我們描述了如何將去噪定位為多步決策問題,從而產生了一類策略梯度算法,我們稱之為去噪擴散策略優化(DDPO),這些算法比替代的基於獎勵加權似然方法更為有效。在實證方面,DDPO 能夠使文本到圖像擴散模型適應難以通過提示表達的目標,例如圖像壓縮性,以及源自人類反饋的目標,例如美學質量。最後,我們展示了 DDPO 可以通過來自視覺語言模型的反饋來改善提示-圖像對齊,而無需進行額外的數據收集或人工標註。
近年來,圖像生成在性能上取得了巨大的飛躍,其中擴散模型發揮了核心作用。儘管能夠生成高質量的圖像,這類模型主要是根據文本描述進行條件設置。這引出了一個問題:“我們如何將這些模型調整為根據其他模態進行條件設置呢?”在本文中,我們提出了一種新方法,利用為文本到圖像生成訓練的潛在擴散模型來生成根據音頻錄製條件的圖像。通過使用預先訓練的音頻編碼模型,所提出的方法將音頻編碼為一個新的標記,這可以被視為音頻和文本表示之間的適應層。這種建模範式需要少量可訓練參數,使得所提出的方法在輕量級優化方面具有吸引力。結果表明,根據客觀和主觀指標,所提出的方法優於評估的基準方法。代碼和樣本可在以下網址找到:https://pages.cs.huji.ac.il/adiyoss-lab/AudioToken。
由可微分搜索索引推廣開來,新興的生成檢索範式將經典的資訊檢索問題重新構架為一個序列到序列建模任務,放棄外部索引,並將整個文件語料庫編碼到單個Transformer中。儘管已提出許多不同方法來提高生成檢索的效果,但它們僅在約100k大小的文件語料庫上進行了評估。我們進行了對各種語料庫規模的生成檢索技術的第一個實證研究,最終擴展到包含8.8M段落的整個MS MARCO段落排名任務,並評估了高達11B參數的模型大小。我們發現了關於將生成檢索擴展到數百萬段落的幾個結果;特別是,在索引期間使用合成查詢作為文件表示的核心重要性,現有提出的架構修改在考慮計算成本時的無效性,以及對於檢索性能的模型參數的天真擴展限制。雖然我們發現在小語料庫上,生成檢索與最先進的雙編碼器競爭力相當,但擴展到數百萬段落仍然是一個重要且尚未解決的挑戰。我們相信這些發現將對社區澄清生成檢索的當前狀態、突出獨特挑戰並激發新的研究方向具有價值。
在音訊處理領域,遷移學習促進了自監督學習和零樣本學習技術的崛起。這些方法導致了能夠應對各種任務並提供最先進性能的多功能模型的發展。然而,目前的模型固有地缺乏產生開放式任務所需語言的能力,例如音訊字幕或音訊問答。我們介紹了Pengi,一種新穎的音訊語言模型,利用遷移學習將所有音訊任務都框定為文本生成任務。它以音訊錄製和文本作為輸入,並生成自由形式文本作為輸出。輸入音訊由音訊編碼器表示為連續嵌入的序列。文本編碼器對應的文本輸入執行相同操作。這兩個序列結合為前綴以提示預先訓練的凍結語言模型。Pengi的統一架構使其能夠處理開放式任務和無需進行額外微調或任務特定擴展的閉合式任務。在對22個下游任務進行評估時,我們的方法在其中幾個任務中實現了最先進的性能。我們的結果表明,將語言模型與音訊模型相連是邁向通用音訊理解的重要一步。
最近在預訓練大型語言模型方面取得的快速進展,主要依賴於使用自監督語言建模目標,如下一個 token 預測或跨度損壞。另一方面,機器翻譯系統主要是使用需要在源語言和目標語言之間對齊的數據的跨語言監督進行訓練。我們證明,在大型語言模型的預訓練中,混合自監督語言建模目標和監督機器翻譯目標,因此在預訓練期間包含跨語言平行數據,可以產生具有更好上下文學習能力的模型。由於預訓練是一個非常資源密集的過程,而在兩個目標之間找到最佳混合比例的網格搜索成本過高,因此我們提出了一種簡單而有效的策略,在預訓練期間學習這個比例。
大型語言模型(LLMs)被知道會記憶其訓練數據的重要部分。已經證明可以通過簡單查詢模型來提取這些記憶內容的部分,這構成了一種隱私風險。我們提出了一種新方法,使用提示調整來控制LLMs中記憶內容的提取率。我們提出了兩種提示訓練策略來增加和減少提取率,分別對應攻擊和防禦。我們通過在公共基準上使用GPT-Neo系列模型展示了我們技術的有效性。對於擁有13億參數的GPT-Neo模型,我們的攻擊相對於基準線使提取率增加了9.3個百分點。我們的防禦可以通過用戶指定的超參數進行調整,以實現不同的隱私-效用折衷。相對於基準線,我們實現了高達97.7%的提取率降低,同時困惑度增加了16.9%。
大型語言模型(LLMs)可用於通過少量提示生成更小、更精煉的數據集,以進行基準測試、微調或其他用途。然而,理解和評估這些數據集是困難的,且LLM生成的數據的失敗模式仍不被充分理解。具體而言,數據可能以令人驚訝的方式重複,不僅在語義上如此,還在句法和詞彙上如此。我們提出了LinguisticLens,一種新型的交互式可視化工具,用於理解和分析LLM生成的數據集的句法多樣性。LinguisticLens將文本沿著句法、詞彙和語義軸進行聚類。它支持文本數據集的分層可視化,使用戶可以快速瀏覽概覽並檢查個別示例。現在可以在shorturl.at/zHOUV上查看演示。
基於變壓器的單向語言模型所產生的表示被認為在預測大腦對自然語言的反應方面非常有效。然而,大多數比較語言模型和大腦的研究都使用了GPT-2或類似規模的語言模型。在這裡,我們測試了來自OPT和LLaMA家族等更大型的開源模型是否更能準確地預測使用fMRI記錄的大腦反應。與其他情境中的規模化結果相呼應,我們發現從125M到30B參數模型,大腦預測性能以對數線性方式隨著模型大小增加,通過與保留測試集的相關性測量,跨3個受試者,編碼性能提高了約15%。在調整fMRI訓練集大小時觀察到類似的對數線性行為。我們還對使用HuBERT、WavLM和Whisper的聲學編碼模型進行了規模化特徵化,並發現模型大小增加時有類似的改善。對這些大型、高性能編碼模型的噪聲天花板分析顯示,對於如前準備皮質和更高層聽覺皮質等大腦區域,性能接近理論最大值。這些結果表明,在模型和數據的規模化方面取得進展將產生非常有效的大腦語言處理模型,從而實現更好的科學理解以及解碼等應用。
在自然語言處理模型中,刻板印象基準數據集對於檢測和減輕有關人群的社會刻板印象至關重要。然而,現有的數據集在規模和覆蓋範圍上存在限制,並且主要僅限於西方社會中普遍存在的刻板印象。隨著語言技術在全球範圍內的應用擴大,這一問題尤為嚴重。為彌補這一差距,我們提出了SeeGULL,這是一個廣泛覆蓋的刻板印象數據集,通過利用PaLM和GPT-3等大型語言模型的生成能力構建,並利用全球多元化的評定者群體驗證這些刻板印象在社會中的普遍程度。SeeGULL以英語為主,包含關於涵蓋178個國家、8個不同地緣政治區域、6大洲的身份群體的刻板印象,以及美國和印度的州級身份。我們還為不同刻板印象包含了細緻的冒犯程度分數,展示了它們的全球差異。此外,我們還包括了對同一群體的比較標註,其中標註者分別居住在該地區和北美,並展示了地區內有關群體的刻板印象與北美普遍存在的刻板印象不同。內容警告:本文包含可能具冒犯性的刻板印象示例。
自動化在軟體工程(SE)任務中的出現已從理論轉變為現實。許多學術文章記錄了人工智慧成功應用於解決領域中的問題,如項目管理、建模、測試和開發。最近的創新是ChatGPT的推出,這是一個注入機器學習的聊天機器人,被吹捧為一個能夠為開發人員和測試人員分別生成編程代碼和制定軟體測試策略的資源。儘管有人猜測基於人工智慧的計算可以提高生產力,甚至取代軟體工程師進行軟體開發,但目前缺乏實證證據來驗證這一點。此外,儘管主要關注提高人工智慧系統的準確性,但非功能性需求,包括能源效率、易受攻擊性、公平性(即人類偏見)和安全性經常受到不足的關注。本文認為,對比軟體工程師和基於人工智慧解決方案,考慮各種評估標準,對於促進人機協作、提高基於人工智慧方法的可靠性,以及了解任務適合人類還是人工智慧至關重要。此外,它有助於有效實施合作工作結構和人在迴圈過程。本文進行了實證研究,對比了軟體工程師和人工智慧系統(如ChatGPT)在不同評估指標下的表現。實證研究包括一個案例,評估了ChatGPT生成的代碼與開發人員生成並上傳到Leetcode的代碼。
制定選擇性資訊需求導致查詢隱含指定集合操作,例如交集、聯集和差集。例如,有人可能搜索"不是沙鷸的涉禽"或"在英國拍攝的科幻電影"。為了研究檢索系統滿足此類資訊需求的能力,我們構建了 QUEST,一個包含 3357 個自然語言查詢的數據集,這些查詢具有隱含的集合操作,對應到一組與維基百科文件相對應的實體。該數據集挑戰模型匹配查詢中提到的多個約束與文件中相應證據,並正確執行各種集合操作。該數據集是使用維基百科分類名稱半自動構建的。查詢是從單個分類自動組合而成,然後由眾包工作者進行改寫,進一步驗證其自然性和流暢性。眾包工作者還根據文件評估實體的相關性,並突出查詢約束與文件文本範圍的對應。我們分析了幾個現代檢索系統,發現它們在這類查詢上通常遇到困難。涉及否定和連接詞的查詢尤其具有挑戰性,系統在這些操作的組合方面進一步受到挑戰。
大型語言模型(LLMs)的出現顯著影響了自然語言處理,在各種任務中展現出優異的結果。在這項研究中,我們利用“內省提示”來幫助LLMs自我優化其決策過程。通過內省地檢視軌跡,LLM通過生成簡潔而有價值的提示來完善其策略。我們的方法通過考慮三個基本情境來提高代理人在少樣本和零樣本學習情況下的表現:從代理人過去的經驗中學習、整合專家示範以及在不同遊戲間進行泛化。重要的是,我們實現了這些改進,而無需微調LLM參數;相反,我們調整提示以從上述三種情況中獲得見解的泛化。我們的框架不僅支持,而且強調了在上下文決策中使用LLM的優勢。在TextWorld中涉及超過100個遊戲的實驗說明了我們方法的優越性能。
大型語言模型(LLM)在開放領域任務中廣受歡迎並取得顯著成就,但在真實產業特定場景中的表現平均,因為它缺乏特定知識。這個問題引起了廣泛關注,但相關基準測試很少。本文提供了一個名為 MSQA 的基準問答(QA)數據集,涉及微軟產品和客戶遇到的 IT 技術問題。這個數據集包含行業特定的雲端 QA 知識,對於一般 LLM 不可用,因此非常適合評估旨在提升 LLM 領域特定能力的方法。此外,我們提出了一種新的模型交互範式,可以賦予 LLM 在其不擅長的領域特定任務上取得更好的表現。廣泛的實驗表明,遵循我們的模型融合框架的方法優於常用的帶檢索方法的 LLM。
我們介紹了一種名為多目標反事實(Multi-Objective Counterfactuals for Design,簡稱MCD)的新方法,用於設計問題中的反事實優化。反事實是可能導致不同決策或選擇的假設情況。在本文中,作者將反事實搜索問題定義為一種設計建議工具,可以幫助識別對設計進行修改,從而提高功能性能。MCD通過支持多目標查詢(在設計問題中至關重要)以及解耦反事實搜索和抽樣過程來改進現有的反事實搜索方法,從而提高效率並促進客觀權衡可視化。本文使用二維測試案例展示了MCD的核心功能,隨後進行了三個自行車設計案例研究,展示了MCD在實際設計問題中的有效性。在第一個案例研究中,MCD擅長於推薦對查詢設計進行修改,從而顯著提高功能性能,例如節省重量和改善結構安全系數。第二個案例研究展示了MCD可以與預先訓練的語言模型合作,有效地根據主觀文本提示提出設計更改。最後,作者讓MCD增加查詢設計與目標圖像和文本提示的相似性,同時減輕重量並提高結構性能,展示了MCD在複雜多模態查詢上的性能。總的來說,MCD有潛力為尋找答案的實踐者和設計自動化研究人員提供有價值的建議,他們通過探索假設設計修改及其對多個設計目標的影響來回答他們的“假如”問題。本文使用的代碼、測試問題和數據集可向公眾提供,網址為decode.mit.edu/projects/counterfactuals/。
發展心理學家花了數十年的時間設計實驗,以測試嬰兒和兒童的智力和知識,追溯關鍵概念和能力的起源。此外,發展心理學中的實驗技術被精心設計,以區分支持特定行為的認知能力。我們提議利用兒童發展中的經典實驗,是探究人工智能模型的計算能力,總體而言,尤其是大型語言模型的一種特別有效的方法。首先,發展心理學的方法技術,例如使用新穎刺激來控制過去經驗或控制條件以確定兒童是否使用簡單聯想,同樣有助於評估大型語言模型的能力。同時,以這種方式測試大型語言模型可以告訴我們,文本中編碼的信息是否足以啟用特定回應,或者這些回應是否依賴於其他類型的信息,例如來自探索物理世界的信息。在這項工作中,我們改編了經典的發展實驗,以評估Google的大型語言模型LaMDA的能力。我們提出了一個新穎的語言模型回應分數(LRS)指標,可用於評估其他語言模型,如GPT。我們發現LaMDA生成的回應與涉及社會理解的實驗中兒童的回應相似,也許提供了證據表明這些領域的知識是通過語言發現的。另一方面,LaMDA在早期對象和行動理解、心靈理論,尤其是因果推理任務中的回應與年幼兒童的回應非常不同,也許顯示這些領域需要更多真實世界的自主探索,並不能僅僅從語言輸入的模式中學習。