每日精選AI研究論文及翻譯
長久以來,人們已經確立了預測模型可以轉換為無損壓縮器,反之亦然。近年來,機器學習社群專注於訓練越來越大且強大的自監督(語言)模型。由於這些大型語言模型展現出令人印象深刻的預測能力,它們很適合成為強大的壓縮器。在這項研究中,我們主張通過壓縮的角度來看待預測問題,並評估大型(基礎)模型的壓縮能力。我們展示了大型語言模型是功能強大的通用預測器,並且壓縮觀點提供了對於規模定律、標記化和上下文學習的新見解。例如,Chinchilla 70B 雖然主要在文本上訓練,但將 ImageNet 補丁壓縮至其原始大小的 43.4%,以及 LibriSpeech 樣本壓縮至其原始大小的 16.4%,分別超越了領域特定的壓縮器如 PNG(58.5%)或 FLAC(30.3%)。最後,我們展示了預測-壓縮等價性使我們能夠使用任何壓縮器(如 gzip)來建立條件生成模型。
在這份工作中,我們提出了一種可擴展的強化學習方法,用於從大型離線數據集中訓練多任務策略,可以利用人類示範和自主收集的數據。我們的方法使用Transformer提供可擴展的表示,用於通過離線時間差備份訓練的Q函數。因此,我們將該方法稱為Q-Transformer。通過將每個動作維度離散化,並將每個動作維度的Q值表示為獨立標記,我們可以應用有效的高容量序列建模技術進行Q學習。我們提出了幾個設計決策,以實現良好的離線強化學習訓練性能,並展示Q-Transformer在大型多樣的現實世界機器人操作任務套件上優於先前的離線強化學習算法和模仿學習技術。有關該項目的網站和視頻可在https://q-transformer.github.io 找到。
擁有數十億參數的大型語言模型(LLMs)在各種自然語言處理任務上展現出優異表現。本報告介紹了OpenBA,一個開源的 15B 雙語非對稱 seq2seq 模型,旨在為中文導向的開源模型社區貢獻一種LLM變體。我們通過有效和高效的技術增強了OpenBA,並採用了三階段訓練策略從頭開始訓練模型。我們的解決方案在僅使用 380B tokens 時也能達到非常有競爭力的表現,優於 BELEBELE 基準上的 LLaMA-70B,MMLU 基準上的 BLOOM-176B,以及 C-Eval(hard)基準上的 GLM-130B。本報告提供了預訓練類似模型的主要細節,包括預訓練數據處理、雙語 Flan 數據收集、啟發我們模型架構設計的實證觀察、不同階段的訓練目標,以及其他增強技術。我們已重構代碼以符合Huggingface Transformers Library的設計原則,使開發者更方便使用,並在 https://huggingface.co/openBA 發布了不同訓練階段的檢查點。有關我們項目的更多細節可在 https://github.com/OpenNLG/openBA.git 找到。
本文旨在研究各種數據組合(例如網絡文本、維基百科、GitHub、書籍)對使用SlimPajama訓練大型語言模型的影響。SlimPajama是一個經過嚴謹去重、多來源數據集,從Together貢獻的龐大1.2T tokens RedPajama數據集中進一步精煉和去重至627B tokens。我們將我們的研究稱為SlimPajama-DC,這是一項旨在揭示使用SlimPajama訓練大型語言模型的基本特徵和最佳實踐的實證分析。在我們對SlimPajama的研究中,出現了兩個重要觀察:(1)全局去重與局部去重。我們分析並討論全局(跨不同數據集來源)和局部(在單一數據集來源內)去重對訓練模型性能的影響。 (2)組合中高質量/高度去重多來源數據集的比例。為了研究這一點,我們構建了六種SlimPajama數據集配置,並使用1.3B Cerebras-GPT模型與Alibi和SwiGLU分別對它們進行訓練。我們最佳的配置明顯優於使用相同數量訓練tokens的RedPajama上訓練的1.3B模型。我們所有的1.3B模型都是在Cerebras 16times CS-2集群上以總共80 PFLOP/s的bf16混合精度進行訓練。我們進一步對大批量訓練的7B模型擴展了我們的發現(例如,在全局去重後增加數據多樣性至關重要)。我們的模型和單獨的SlimPajama-DC數據集可在以下鏈接找到:https://huggingface.co/MBZUAI-LLM 和 https://huggingface.co/datasets/cerebras/SlimPajama-627B。
近年來,音訊生成方面的最新進展受益於大規模深度學習模型和龐大數據集的演進。然而,視訊轉音訊(V2A)生成任務仍然是一項挑戰,主要是因為高維視覺和聽覺數據之間錯綜複雜的關係,以及與時間同步相關的挑戰。在本研究中,我們介紹了FoleyGen,一個基於語言建模範式構建的開放域V2A生成系統。FoleyGen利用現成的神經音訊編解碼器進行波形和離散標記之間的雙向轉換。音訊標記的生成由一個單一Transformer模型進行,該模型受到從視覺編碼器提取的視覺特徵的條件約束。V2A生成中一個普遍的問題是生成的音訊與視頻中可見動作之間的不對齊。為了解決這個問題,我們探索了三種新穎的視覺注意機制。我們進一步對多個視覺編碼器進行了全面評估,每個編碼器都是在單模態或多模態任務上預訓練的。對VGGSound數據集的實驗結果表明,我們提出的FoleyGen在所有客觀指標和人類評估中均優於先前的系統。
我們介紹了一個新穎的框架 POP3D,可以從單張圖像創建完整的 360° 全景 3D 模型。POP3D 解決了限制單視角重建的兩個突出問題。首先,POP3D 提供了對任意類別的顯著泛化能力,這是先前方法難以實現的特點。其次,POP3D 進一步提高了重建的保真度和自然性,這是同期工作所欠缺的關鍵方面。我們的方法結合了四個主要組件的優勢:(1) 單眼深度和法向預測器,用於預測關鍵的幾何線索,(2) 一種能夠劃分目標對象可能看不見部分的空間雕刻方法,(3) 在大規模圖像數據集上預先訓練的生成模型,可以完成目標的看不見區域,以及 (4) 一種神經隱式表面重建方法,專門用於使用 RGB 圖像和單眼幾何線索重建物體。這些組件的組合使得 POP3D 能夠輕鬆泛化到各種野外圖像並生成最先進的重建結果,明顯優於類似工作。項目頁面:http://cg.postech.ac.kr/research/POP3D