每日精選AI研究論文及翻譯
近年來,基於Transformer的大型語言模型(LLMs)在各個領域的表現有顯著進步。隨著這些LLMs被應用於越來越複雜的任務,它們通常需要進行更長的推理過程或理解更大的上下文。在這些情況下,LLMs對於長序列的長度泛化失敗變得更加突出。大多數預訓練方案將訓練序列截斷到固定長度(例如LLaMa的2048)。即使使用了相對位置編碼來應對這個問題,LLMs在更長的上下文之後往往難以生成流暢的文本,更不用說執行下游任務了。常見的解決方案,例如在更長的語料庫上進行微調,通常涉及龐大的硬件和時間成本,並需要仔細設計訓練過程。為了更有效地利用現有LLMs的生成能力,我們在理論上和實證上調查了導致這個問題的主要超出分布(OOD)因素。受到這一診斷的啟發,我們提出了一個簡單而有效的解決方案,即即時長度泛化LM-Infinite,它僅涉及一個Lambda形狀的注意力遮罩和一個距離限制,而無需進行參數更新或學習。我們發現這適用於使用相對位置編碼方法的各種LLMs。LM-Infinite在計算上高效,具有O(n)的時間和空間複雜度,並在ArXiv和OpenWebText2數據集上展示了一致的流暢性和生成質量,最長可達32k標記,並實現了2.72倍的解碼加速。在下游任務(例如passkey檢索)上,它繼續在比訓練長度長得多的輸入上工作,而普通模型則會立即失敗。
最近,多模式大型語言模型引起了相當大的興趣。然而,大部分研究專注於視覺-語言多模式模型,提供強大的能力來遵循視覺和語言指示。然而,我們主張語音也是人類與世界互動的重要模式之一。因此,對於一個通用助理來說,能夠遵循多模式語音和語言指示至關重要。在這項工作中,我們提出了大型語言和語音模型(LLaSM)。LLaSM是一個端對端訓練的大型多模式語音語言模型,具有跨模式對話能力,能夠遵循語音和語言指示。我們的早期實驗表明,LLaSM展示了一種更方便和自然的方式,讓人類與人工智能互動。具體來說,我們還釋出了一個大型語音指示跟隨數據集LLaSM-Audio-Instructions。代碼和演示可在以下網址找到:https://github.com/LinkSoul-AI/LLaSM 和 https://huggingface.co/spaces/LinkSoul/LLaSM。LLaSM-Audio-Instructions數據集可在以下網址找到:https://huggingface.co/datasets/LinkSoul/LLaSM-Audio-Instructions。
我們介紹了 Jais 和 Jais-chat,這是最新的以阿拉伯語為中心的基礎和指導調校的開放生成式大型語言模型(LLMs)。這些模型基於 GPT-3 的僅解碼器架構,並在混合的阿拉伯語和英語文本(包括各種編程語言的源代碼)上進行了預訓練。憑藉 130 億個參數,它們在阿拉伯語方面展示了比現有的任何開放式阿拉伯語和多語種模型更好的知識和推理能力,這是基於廣泛的評估。此外,儘管在英語數據上的訓練量遠遠少於英語為中心的相似大小的開放模型,但這些模型在英語方面也具有競爭力。我們提供了有關模型的訓練、調校、安全對齊和評估的詳細描述。我們釋出了兩個開放版本的模型 —— 基礎的 Jais 模型和一個經過指導調校的 Jais-chat 變體 —— 旨在促進對阿拉伯語 LLMs 的研究。可在 https://huggingface.co/inception-mbzuai/jais-13b-chat 下載。
為了讓機器人在實驗室以外的環境和特定工廠中發揮作用,我們需要一種能夠快速教導它們新的有用行為的方法。目前的方法要麼缺乏足夠的通用性,無法在沒有特定任務工程的情況下引入新任務,要麼缺乏足夠的數據效率,無法在實際應用中使用的時間內完成這一過程。在這項研究中,我們探索了密集跟踪作為一種表徵工具,以實現更快速、更通用的示範學習。我們的方法利用“跟蹤任意點”(TAP)模型來分離示範中的相關運動,並對低層控制器進行參數化,以在場景配置變化時重現這種運動。我們展示了這導致了能夠解決複雜的物體排列任務,如形狀匹配、堆疊,甚至全程跟隨任務,如應用膠水並將物體粘合在一起的強健機器人策略,所有這些都是通過幾分鐘內收集的示範完成的。
WeatherBench 2 是由 Rasp 等人(2020)提出的全球中程(1-14 天)天氣預報基準的更新版本,旨在加速數據驅動天氣建模的進展。WeatherBench 2 包括一個開源評估框架、公開可用的訓練、基準數據以及一個持續更新的網站,提供最新的指標和最先進的模型:https://sites.research.google/weatherbench。本文描述了評估框架的設計原則,並呈現了當前最先進的物理和數據驅動天氣模型的結果。這些指標基於評估領先運營天氣中心的天氣預報的已建立慣例。我們定義了一組標題分數,以提供模型性能的概觀。此外,我們還討論了當前評估設置中的注意事項,以及數據驅動天氣預報未來面臨的挑戰。
學習策略性機器人行為,例如在追逐-逃避互動中所需的行為,在現實世界的限制下是極具挑戰性的。這需要利用互動的動態,並通過物理狀態和潛在意圖的不確定性進行規劃。在本文中,我們將這個棘手的問題轉化為一個監督式學習問題,其中一個完全可觀察的機器人策略為部分可觀察的機器人生成監督。我們發現,對於部分可觀察的追逐者策略來說,監督信號的質量取決於兩個關鍵因素:逃避者行為的多樣性和最優性的平衡,以及完全可觀察策略中建模假設的強度。我們在一個具有RGB-D攝像頭的四足機器人上部署我們的策略,進行野外追逐-逃避互動。儘管存在種種挑戰,感知限制帶來創造力:當不確定時,機器人被迫收集信息,從噪聲測量中預測意圖,並預測以進行截擊。專案網頁:https://abajcsy.github.io/vision-based-pursuit/