每日精選AI研究論文及翻譯
我們介紹了 AudioPaLM,一個用於語音理解和生成的大型語言模型。AudioPaLM將基於文本的語言模型 PaLM-2 [Anil等,2023] 和基於語音的語言模型 AudioLM [Borsos等,2022] 融合成一個統一的多模態架構,可以處理和生成文本和語音,應用包括語音識別和語音到語音的翻譯。AudioPaLM繼承了從性質,可以保存語音模型 AudioLM 中的語音身份和語調等參語言模型 PaLM-2 中僅存在的語言知識。我們展示了,使用僅包含文本的大型語言模型的權重初始化 AudioPaLM 可以改善語音處理,成功利用預訓練中使用的更多文本訓練數據來協助語音任務。結果顯示,該模型在語音翻譯任務中明顯優於現有系統,並且具有執行許多未在訓練中看到的語言的零-shot 語音到文本翻譯的能力。AudioPaLM 還展示了語音語言模型的特性,例如基於簡短的口語提示跨語言轉移語音。我們在 https://google-research.github.io/seanet/audiopalm/examples 上發布了我們方法的示例。
最近提出的「Segment Anything Model」(SAM)在許多電腦視覺任務中產生了顯著影響。它正在成為許多高級任務的基礎步驟,如圖像分割、圖像標題和圖像編輯。然而,其龐大的計算成本阻礙了它在工業場景中更廣泛應用。這種計算主要來自於高分辨率輸入的Transformer架構。在本文中,我們提出了一種加速替代方法,用於這個基本任務,並具有可比擬的性能。通過將任務重新定義為分段生成和提示,我們發現一個常規的CNN檢測器與一個實例分割分支也可以很好地完成這個任務。具體來說,我們將這個任務轉換為廣泛研究的實例分割任務,並直接訓練現有的實例分割方法,僅使用SAM作者發布的SA-1B數據集的1/50。通過我們的方法,我們實現了與SAM方法可比擬的性能,運行速度提高了50倍。我們提供充分的實驗結果來證明其有效性。代碼和演示將在https://github.com/CASIA-IVA-Lab/FastSAM 上發布。
語言如何影響我們的下游思維?特別是,人類如何從語言中獲得意義,以及我們如何利用語言意義理論來建構更符合人類思維方式的機器?在本文中,我們提出了理性意義建構,這是一個結合了語言神經模型和理性推論概率模型的計算框架,用於基於語言的思維。我們將語言意義框架化為一種從自然語言到概率思維語言(PLoT)的上下文敏感映射,這是一種用於概率生成世界建模的通用符號底層。我們的架構整合了兩個強大的計算工具,這兩者以前從未結合過:我們使用概率程序來建模思維,這是一種靈活的常識推理表達方式;我們使用大型語言模型(LLMs)來建模意義構建,這些模型支持從自然語言表達轉換為概率編程語言中的代碼表達。我們通過涵蓋認知科學的四個核心領域的示例來展示我們的框架:概率推理、邏輯和關係推理、視覺和物理推理,以及關於代理人及其計劃的社會推理。在每個示例中,我們展示了LLMs可以生成捕捉實際適當語言意義的上下文敏感翻譯,同時通過生成的程序進行的貝葉斯推理支持一致且強大的常識推理。我們擴展了我們的框架,以整合基於認知動機的符號模塊,提供一個從語言到統一常識思維界面的接口。最後,我們探討了語言如何推動世界模型本身的構建。
將激活、權重和梯度量化為4位元有望加速神經網絡訓練。然而,現有的4位元訓練方法需要自定義的數值格式,這些格式在當代硬體中不受支持。在這項工作中,我們提出了一種用 INT4 算術實現所有矩陣乘法的 transformer 訓練方法。使用超低 INT4 精度進行訓練具有挑戰性。為了實現這一點,我們仔細分析了 transformer 中激活和梯度的特定結構,並為它們提出了專用的量化器。對於前向傳播,我們確定了異常值的挑戰,並提出了 Hadamard 量化器來壓制這些異常值。對於反向傳播,我們利用梯度的結構稀疏性,提出了位元分割和得分抽樣技術,以精確量化梯度。我們的算法在包括自然語言理解、機器翻譯和圖像分類在內的各種任務上實現了競爭力的準確性。與先前的4位元訓練方法不同,我們的算法可以在當前一代 GPU 上實現。我們的原型線性運算符實現比 FP16 對應物快達 2.2 倍,並將訓練加速高達 35.1%。
我們將大型語言模型(LLMs)視為網絡中的隨機語言層,其中可學習的參數是每一層的自然語言提示。我們堆疊兩個這樣的層,將一層的輸出餵入下一層。我們將這種堆疊的架構稱為深度語言網絡(DLN)。我們首先展示如何有效地執行對於單層語言網絡(DLN-1)的提示優化。然後,我們展示如何訓練雙層DLNs(DLN-2),其中必須學習兩個提示。我們將第一層的輸出視為要邊際化的潛在變量,並為聯合提示訓練設計了一種變分推理算法。DLN-2的性能比單層更高,有時甚至可與少樣本GPT-4相媲美,即使網絡中的每個LLM都更小且功能較弱。DLN代碼是開源的:https://github.com/microsoft/deep-language-networks。
Transformer 模型在過去幾年被廣泛應用於各個領域,特別是大型語言模型顯著推動了人工智慧領域的發展。由於它們的規模,這些網絡的能力大幅提升,但這也伴隨著對計算資源的顯著增加。量化是減少神經網絡計算時間和內存消耗的最有效方法之一。然而,許多研究表明,現代 Transformer 模型往往會在其激活中學習到強烈的離群值,使得量化變得困難。為了保持可接受的性能,這些離群值的存在要求激活位元數更高,或者使用不同的數值格式、額外的微調或其他解決方法。我們指出,強烈的離群值與注意力頭部的特定行為有關,這些頭部試圖學習“無操作”或僅對殘差進行部分更新。為了實現注意力矩陣中所需的精確零值以進行無更新,softmax 的輸入在訓練期間被推動得越來越大,導致網絡其他部分出現離群值。基於這些觀察,我們提出了兩種簡單(獨立的)修改注意機制的方法 - 截斷 softmax 和閘控注意力。我們實證表明,使用我們方法預訓練的模型學習到的離群值顯著較小,同時保持甚至提升浮點任務性能。這使我們能夠將 Transformer 模型量化為完整的 INT8 量化而無需任何額外努力。我們展示了我們方法在語言模型(BERT、OPT)和視覺 Transformer 上的有效性。
最近,預先訓練於數十億張圖像-文本配對的文本到圖像擴散模型已經使得透過優化隨機初始化的神經輻射場(NeRF)與分數蒸餾,實現了文本到3D內容的創作。然而,所得到的3D模型存在兩個限制:(a)品質問題,如飽和色彩和雙面問題;(b)與文本引導的圖像合成相比,多樣性極低。本文指出,NeRF優化過程與分數蒸餾中均勻時間步採樣之間的衝突是這些限制的主要原因。為了解決這一衝突,我們提出將時間步採樣優先考慮為單調非遞減函數,這樣可以使NeRF優化與擴散模型的採樣過程保持一致。大量實驗表明,我們的簡單重新設計顯著改善了文本到3D內容的創作,提高了品質和多樣性。
最近大規模文本到圖像擴散模型的進展已經使得許多圖像編輯應用成為可能。然而,目前尚無法編輯單張現有圖像的佈局。為了填補這一缺口,我們提出了第一個框架,用於編輯單張圖像的佈局,同時保留其視覺特性,從而實現對單張圖像的連續編輯。我們的方法通過兩個關鍵模塊來實現。首先,為了保留圖像中多個物體的特徵,我們將不同物體的概念進行解耦,並使用一種名為「遮罩文本反轉」的新方法將它們嵌入到獨立的文本標記中。接下來,我們提出了一種無需訓練的優化方法,用於對預先訓練的擴散模型執行佈局控制,從而使我們能夠重新生成具有學習概念的圖像並將它們與用戶指定的佈局對齊。作為首個編輯現有圖像佈局的框架,我們展示了我們的方法是有效的,並且優於其他為支持此任務而修改的基準線方法。我們的代碼將在接受後免費提供給公眾使用。
Polis 是一個利用機器智能來擴大審議過程的平台。在本文中,我們探討應用大型語言模型(LLMs)處理促進、管理和總結 Polis 參與結果的挑戰所涉及的機會和風險。特別是,我們通過使用 Anthropic 的 Claude 進行試驗來展示,LLMs確實可以增強人類智能,以幫助更有效地運行 Polis 對話。特別是,我們發現總結能力使得全新的方法具有巨大潛力,可以賦予公眾在集體意義創造練習中更大的力量。值得注意的是,LLM 的上下文限制對這些結果的洞察力和質量有顯著影響。 然而,這些機會伴隨著風險。我們討論了其中一些風險,以及表徵和減輕這些風險的原則和技術,以及對可能使用LLMs的其他審議或政治系統的影響。最後,我們結論了幾個未來開放研究方向,以增強像 Polis 這樣的工具與LLMs的能力。
Equivariant Transformers(等變換器)如Equiformer已證明將Transformer應用於3D原子系統領域的有效性。然而,由於其計算複雜度,它們仍然受限於小範圍的等變表示。在本文中,我們探討這些架構是否能夠良好擴展至更高程度。從Equiformer開始,我們首先將SO(3)卷積替換為eSCN卷積,以有效地整合更高階的張量。然後,為了更好地利用更高程度的能力,我們提出三項架構改進 -- 注意力重正化、可分離S^2激活和可分離層規範化。將所有這些結合在一起,我們提出EquiformerV2,在大規模OC20數據集上比以往最先進的方法在力量上提高了高達12%,在能量上提高了4%,提供更好的速度-精度折衷,並且減少了2倍的DFT計算,用於計算吸附能。