每日精選AI研究論文及翻譯
資料集是現代人工智慧許多突破的基礎。自然語言處理(NLP)領域的許多最新成就可歸因於對預先訓練模型進行微調,使大型語言模型(LLM)能夠回應指令的多樣任務集。指令微調(IFT)需要特別構建和標註的資料集。然而,現有的資料集幾乎都是以英語為主。在這項工作中,我們的主要目標是通過建立一個人工精選的指令遵循資料集,涵蓋65種語言,以彌合語言差距。我們與來自世界各地的母語使用者合作,收集指令和完成的自然實例。此外,我們通過模板化和翻譯現有資料集,跨越114種語言,創建迄今為止最廣泛的多語言收集,包括5.13億個實例。總共,我們貢獻了四個關鍵資源:我們開發並開源Aya標註平台、Aya資料集、Aya收集和Aya評估套件。Aya倡議也作為參與式研究的寶貴案例研究,涉及來自119個國家的合作者。我們認為這是未來研究合作的寶貴框架,旨在彌合資源差距。
大型語言模型的數學能力可以代表其抽象推理能力。在本文中,我們介紹並開源我們的數學推理LLMs InternLM-Math,該模型是從InternLM2繼續預訓練而來。我們將思維鏈推理、獎勵建模、形式推理、數據增強和代碼解釋器統一在一個統一的seq2seq格式中,並監督我們的模型成為一個多才多藝的數學推理者、驗證者、證明者和增強者。這些能力可以用於開發下一代數學LLMs或自我迭代。InternLM-Math在上下文學習、監督微調和代碼輔助推理的情況下,在各種非正式和正式基準測試中(包括GSM8K、MATH、匈牙利數學考試、MathBench-ZH和MiniF2F)獲得了開源的最先進性能。我們的預訓練模型在未進行微調的情況下在MiniF2F測試集上達到了30.3的分數。我們進一步探索了如何使用LEAN來解決數學問題,並研究了在多任務學習情況下的性能,顯示了使用LEAN作為解決和證明數學問題的統一平台的可能性。我們的模型、代碼和數據已在https://github.com/InternLM/InternLM-Math 上發布。
從文本提示中創建數字化頭像一直是一項令人嚮往但具有挑戰性的任務。儘管最近的研究中通過2D擴散先驗取得了令人期待的成果,但目前的方法在實現高質量和動畫頭像方面面臨挑戰。在本文中,我們提出了HeadStudio,一個新穎的框架,利用3D高斯飛濺生成逼真且動畫頭像,從文本提示中。我們的方法在中間FLAME表示形式中語義地驅動3D高斯,以創建靈活且可實現的外觀。具體來說,我們將FLAME納入3D表示和分數蒸餾中:1)基於FLAME的3D高斯飛濺,通過將每個點綁定到FLAME網格來驅動3D高斯點。2)基於FLAME的分數蒸餾採樣,利用基於FLAME的細粒控制信號來引導從文本提示中進行分數蒸餾。大量實驗證明了HeadStudio在從文本提示生成可動畫頭像方面的有效性,展示出視覺上吸引人的外觀。這些頭像能夠以1024的分辨率以高質量實時(大於等於40 fps)呈現新視圖。它們可以通過現實世界的語音和視頻平滑控制。我們希望HeadStudio能推動數字化頭像的創建,並且目前的方法可以廣泛應用於各個領域。
最近在文本轉音樂生成模型方面取得的進展開拓了音樂創作的新途徑。然而,音樂生成通常涉及迭代的改進,如何編輯生成的音樂仍然是一個重要挑戰。本文介紹了一種新的方法來編輯由這些模型生成的音樂,使得可以修改特定屬性,如流派、情緒和樂器,同時保持其他方面不變。我們的方法將文本編輯轉換為潛在空間操作,同時添加額外的約束以強制保持一致性。它與現有的預訓練文本轉音樂擴散模型無縫集成,無需額外的訓練。實驗結果表明,在風格和音色轉換評估中,我們的方法在零樣本和某些監督基線上展現出優越的性能。此外,我們展示了我們方法在真實音樂編輯場景中的實際應用性。
通過結合自然語言理解和大型語言模型的生成能力以及對圖像感知的廣泛知識,最近的大型視覺語言模型(LVLMs)展示了在現實世界中前所未有的推理能力。然而,生成的文本通常存在於視覺輸入中不準確的基礎,導致錯誤,如幻覺不存在的場景元素、遺漏場景的重要部分,以及推斷對象之間的屬性和關係不正確。為了解決這些問題,我們引入了一個新穎的框架,ViGoR(通過精細獎勵建模實現視覺基礎)。該框架利用精細獎勵建模,顯著增強了LVLMs對預訓練基線的視覺基礎。這種改進是通過更便宜的人工評估方法以及自動化方法高效實現的,而不是通過完整的監督。我們通過多個基準測試展示了我們方法的有效性。此外,我們構建了一個專門設計來驗證LVLMs視覺基礎能力的全面且具有挑戰性的數據集。最後,我們計劃釋出我們的人工標註,其中包括約16,000張圖像和生成文本對以及精細評估,以促進社區中相關研究的發展。
我們引入具有典型範例的模型編輯,這是一種設定,其中(1)每個期望的行為只提供一個學習範例,(2)評估僅在分布外進行,並且(3)從初始模型的偏差嚴格受限。典型範例是良好行為的簡單實例,例如,毛里裘斯的首都是路易港,或者不良行為的實例,例如,研究人員的某個方面是冷酷的。評估集包含每種行為的更複雜範例(例如,在一段文字中要求毛里裘斯的首都)。我們創建了三個數據集,並修改了另外三個,用於具有典型範例的模型編輯,涵蓋知識密集型改進、社會偏見緩解和語法邊緣案例。在我們對Pythia語言模型的實驗中,我們發現LoRA優於完整微調和MEMIT。然後,我們轉向Backpack語言模型架構,因為它旨在實現有針對性的改進。Backpack定義了一個大型的意義向量庫——對每個詞的不同用法進行分解——這些向量被加權並總和以形成模型的輸出logits。我們提出意義微調,它選擇並微調每個典型範例的幾個(約10個)意義向量,並發現它優於其他微調方法,例如,改善了4.8%,而不是0.3%。最後,我們通過推論時間集成提高了GPT-J-6B,僅使用從一個比較小的Backpack的意義微調變化,其中在某些情況下超越了GPT-J本身的編輯(4.1% vs 1.0%)。
大型語言模型(LLMs)有潛力影響廣泛的創意領域,但將LLMs應用於動畫領域尚未深入研究,並提出了新挑戰,例如用戶如何有效地用自然語言描述運動。本文介紹了一種名為Keyframer的設計工具,用於通過自然語言為靜態圖像(SVGs)添加動畫。Keyframer根據對專業動畫設計師和工程師的訪談,通過提示和直接編輯生成的輸出的組合,支持動畫的探索和完善。該系統還使用戶能夠請求設計變體,支持比較和構思。通過對13名參與者進行的用戶研究,我們提出了用戶提示策略的特徵,包括用於描述運動的語義提示類型的分類法以及一種“分解”的提示風格,其中用戶不斷根據生成的輸出調整其目標。我們分享了直接編輯以及提示如何使得在當今生成工具中常見的一次性提示界面之外進行迭代。通過這項工作,我們提出了LLMs如何賦予各種受眾參與動畫創作的可能性。
儘管大型語言模型(LLMs)取得了顯著成功,但其龐大的記憶需求使其在長文本生成中的部署面臨挑戰。LLM解碼器的巨大記憶體占用量源於需要在注意力模組中存儲所有先前的標記,這是由鍵-值(KV)緩存所要求的。本研究的重點在於開發一種有效的KV緩存壓縮技術。實證證據表明,在注意力模組中,鍵嵌入內存在顯著的聚類趨勢。基於這一關鍵見解,我們設計了一種具有次線性複雜度的新型緩存方法,採用對鍵標記的在線聚類和對值的在線ell_2抽樣。結果是一種經證明準確且高效的注意力解碼算法,稱為SubGen。這種算法不僅確保了次線性的記憶體占用量和次線性的時間複雜度,而且我們還為我們的方法建立了嚴格的誤差界限。在長文本問答任務的實證評估中,SubGen在性能和效率方面顯著優於現有和最先進的KV緩存壓縮方法。
現有控制語言模型的方法,如RLHF和Constitutional AI,涉及確定哪些LLM行為是可取的,並將其訓練到語言模型中。然而,在許多情況下,希望LLMs在推論時是可控的,這樣它們就可以在多種不同需求的情境中使用。我們通過粉紅大象問題來說明這一點:指示LLM避免討論某個實體(“粉紅大象”),而是討論一個首選實體(“灰色大象”)。我們應用了Constitutional AI的一種新簡化方法,即直接原則反饋,它跳過對回應進行排名,並直接在評論和修訂上使用DPO。我們的結果顯示,在我們的合成粉紅大象數據集上經過DPF微調後,我們的13B微調LLaMA 2模型在粉紅大象問題的測試集上明顯優於Llama-2-13B-Chat和提示基準,並在評估粉紅大象問題的精心選擇測試集上與GPT-4表現一致。
我們提出了Premier-TACO,一種多任務特徵表示學習方法,旨在提高在連續決策任務中的少樣本策略學習效率。Premier-TACO利用多任務離線數據集的子集來預訓練通用特徵表示,捕捉關鍵的環境動態,並使用最少的專家示範進行微調。它推進了時間動作對比學習(TACO)目標,該目標在視覺控制任務中以最先進的結果聞名,並納入了一種新穎的負例採樣策略。這種策略對於顯著提升TACO的計算效率至關重要,使大規模多任務離線預訓練成為可能。我們在各種連續控制基準測試中進行了廣泛的實證評估,包括Deepmind Control Suite、MetaWorld和LIBERO,展示了Premier-TACO在預訓練視覺表示方面的有效性,顯著增強了對新任務的少樣本模仿學習。我們的代碼、預訓練數據以及預訓練模型檢查點將在https://github.com/PremierTACO/premier-taco上發布。
我們介紹了動態貼圖,這是一種視頻擴散模型,可以生成根據文本提示和靜態貼圖圖像條件的動畫。我們的模型建立在最先進的 Emu 文本到圖像模型之上,並添加了時間層來模擬運動。由於領域差異,即視覺和運動風格的差異,一個在生成自然視頻方面表現良好的模型,當應用於貼圖時就無法生成生動的視頻。為了彌合這一差距,我們採用了兩階段微調流程:首先使用弱領域數據,然後採用我們稱之為教師集成的人機協作(HITL)策略。它將多個教師的最佳特質提煉為一個更小的學生模型。我們展示了這一策略使我們能夠針對運動質量的改進進行特定定向,同時保持靜態圖像的風格。通過推理優化,我們的模型能夠在不到一秒的時間內生成一個包含八幀高質量、有趣且相關運動的視頻。
大型語言模型(LLMs)現今被期望能夠生成符合人類偏好的內容。目前的研究聚焦於在模型訓練時實現對齊,透過諸如強化學習與人類反饋(RLHF)等技術。然而,目前尚不清楚這些方法是否是教導模型對齊目標的有效選擇。首先,無法整合多個自定義獎勵以及依賴模型開發者對於普遍和靜態原則的觀點是主要限制因素。其次,模型訓練中的殘留差距以及這些方法的可靠性也存在疑問(例如,即使經過安全訓練,仍然容易被破解)。為了應對這些問題,我們提出了DeAL,一個允許用戶自定義獎勵函數並實現大型語言模型(LLMs)解碼時對齊的框架。在核心思想上,我們將解碼視為一個啟發式引導的搜索過程,並促進各種對齊目標的應用。我們的實驗涉及程式約束,如關鍵詞和長度約束(在LLM時代前被廣泛研究),以及抽象目標,如無害性和幫助性(在LLM時代後被提出),顯示我們能夠在對齊目標的精細平衡中進行DeAL,提高對齊目標的遵循度,並解決LLMs中的殘留差距。最後,雖然DeAL可以有效地與RLHF和提示技術配對使用,但其泛用性使解碼速度變慢,這是我們留給未來工作進行優化的部分。
最近在強化學習(RL)在現實世界應用方面取得的進展,依賴於能夠準確模擬大規模系統的能力。然而,諸如流體動力系統等領域展現出複雜的動態現象,很難以高整合率進行模擬,這限制了現代深度RL算法直接應用於常常昂貴或安全關鍵硬體上的可能性。在這項工作中,我們介紹了一個名為「Box o Flows」的新型臨櫃實驗控制系統,用於系統性地評估RL算法在動態現實世界場景中的表現。我們描述了Box o Flows的關鍵組件,並通過一系列實驗展示了最先進的無模型RL算法如何通過簡單的獎勵規範合成各種複雜行為。此外,我們探討了離線RL在資料高效假設測試中的作用,通過重複使用過去的經驗。我們相信,從這項初步研究中獲得的見解以及像Box o Flows這樣的系統的可用性,將支持發展出可以普遍應用於複雜、動態系統的系統性RL算法的未來方向。附加資料和實驗視頻可在https://sites.google.com/view/box-o-flows/home 上找到。