每日精選AI研究論文及翻譯
增加 Transformer 模型的大小並不總是能提高性能。這種現象無法通過實證縮放定律來解釋。此外,當模型記憶訓練樣本時,改善的泛化能力就會出現。我們提出了一個理論框架,闡明了基於 Transformer 的語言模型的記憶過程和性能動態。我們使用 Hopfield 網絡將 Transformer 的行為建模為具有聯想記憶的模型,這樣每個 Transformer 塊都有效地進行了近似最近鄰搜索。基於此,我們設計了一個類似於現代連續 Hopfield 網絡中的能量函數,為注意機制提供了深入的解釋。通過主導極小化技術,我們構建了一個全局能量函數,捕捉了 Transformer 的分層架構。在特定條件下,我們表明最小可達到的交叉熵損失下限受到一個約等於 1 的常數的限制。我們通過在各種數據大小上使用 GPT-2 進行實驗,以及在包含 2M 個標記的數據集上訓練基本 Transformer,來證實我們的理論結果。
作為人類,我們渴望創建既自由意志又容易控制的媒體內容。由於生成技術的顯著發展,我們現在可以輕鬆利用2D擴散方法來合成由原始草圖或指定人體姿勢控制的圖像,甚至可以逐步編輯/重建局部區域進行遮罩修補。然而,在3D建模任務中類似的工作流程仍然不可用,這是由於3D生成中缺乏可控性和效率。在本文中,我們提出了一個新穎的可控且互動的3D資產建模框架,名為Coin3D。Coin3D允許用戶使用由基本形狀組合而成的粗略幾何代理來控制3D生成,並引入互動生成工作流程,以支持無縫的局部部分編輯,同時在幾秒內提供響應式的3D物體預覽。為此,我們開發了幾種技術,包括將體積粗略形狀控制應用於擴散模型的3D適配器、用於精確部分編輯的代理邊界編輯策略、用於支持響應式預覽的逐步體積緩存,以及用於確保一致網格重建的體積-SDS。在各種形狀代理上的互動生成和編輯的大量實驗表明,我們的方法在3D資產生成任務中實現了卓越的可控性和靈活性。
我們提出了混元-DiT,一種具有對英文和中文進行細粒度理解的文本到圖像擴散Transformer。為了構建混元-DiT,我們精心設計了Transformer結構、文本編碼器和位置編碼。我們還從頭開始構建了整個數據管道,以更新和評估數據以進行迭代模型優化。為了進行細粒度語言理解,我們訓練了一個多模式大型語言模型,以完善圖像的標題。最後,混元-DiT可以與用戶進行多輪多模式對話,根據上下文生成和完善圖像。通過我們的整體人類評估協議,超過50名專業人員評估者,與其他開源模型相比,混元-DiT在中文到圖像生成方面設立了新的最先進水平。代碼和預訓練模型可在github.com/Tencent/HunyuanDiT上公開獲得。
從人類反饋中學習的強化學習(RLHF)是大型語言模型對齊的經典框架。然而,離線對齊算法日益普及,挑戰了RLHF中對政策採樣的需求。在獎勵過度優化的背景下,我們從一組開放性實驗開始,展示了在線方法明顯優於離線方法的優勢。這促使我們通過一系列精心設計的實驗剔除來調查性能差異的原因。我們實證表明,僅離線數據覆蓋率和數據質量等假設無法令人信服地解釋性能差異。我們還發現,雖然離線算法訓練政策在進行成對分類時表現良好,但在生成方面表現較差;與此同時,由在線算法訓練的政策在生成方面表現良好,但在成對分類方面表現較差。這暗示了區分和生成能力之間的獨特相互作用,這在很大程度上受到採樣過程的影響。最後,我們觀察到性能差異對比損失函數和非對比損失函數均存在,並且似乎通過簡單擴展政策網絡無法解決。綜合而言,我們的研究揭示了在AI對齊中對政策採樣的至關重要作用,並暗示了離線對齊算法的某些基本挑戰。
大型語言模型(LLMs)已展現出在執行需要對自然語言指令進行語義理解的任務中具有非凡的精通能力。最近,許多研究進一步擴展了這種能力,以感知多模式音頻和文本輸入,但它們的能力通常僅限於特定的微調任務,如自動語音識別和翻譯。因此,我們開發了SpeechVerse,這是一個強大的多任務訓練和課程學習框架,通過一小組可學習的參數將預訓練的語音和文本基礎模型結合在一起,同時在訓練期間保持預訓練模型凍結。這些模型是通過從語音基礎模型中提取的連續潛在表示進行指令微調,以實現在各種語音處理任務中使用自然語言指令達到最佳的零-shot性能。我們進行了廣泛的基準測試,包括對比我們的模型性能與傳統基準在多個數據集和任務上的表現。此外,我們評估了模型在泛化指令遵循方面的能力,通過在域外數據集、新穎提示和未見過的任務上進行測試。我們的實驗結果顯示,我們的多任務SpeechVerse模型在11個任務中有9個優於傳統特定任務基準。
現有的文本轉圖像模型在遵循複雜文本提示方面遇到困難,因此需要額外的基礎輸入以提高可控性。在這項工作中,我們提出將場景分解為視覺基元 - 以密集塊表示的形式 - 這些基元包含場景的細節,同時具有模塊化、易於解釋和易於構建的特性。基於塊表示,我們開發了一個基於塊的文本轉圖像擴散模型,稱為BlobGEN,用於組合生成。特別地,我們引入了一個新的遮罩交叉注意模塊,以解開塊表示和視覺特徵之間的融合。為了利用大型語言模型(LLMs)的組合性,我們引入了一種新的上下文學習方法,從文本提示生成塊表示。我們的廣泛實驗表明,BlobGEN在MS-COCO上實現了優越的零樣本生成質量和更好的布局引導可控性。當與LLMs結合時,我們的方法在組合圖像生成基準上展現出優越的數值和空間正確性。項目頁面:https://blobgen-2d.github.io。
目前用於視頻理解的架構主要基於3D卷積塊或2D卷積,並附加用於時間建模的額外操作。然而,這些方法都將時間軸視為視頻序列的獨立維度,這需要大量的計算和記憶體預算,因此限制了它們在移動設備上的使用。在本文中,我們提出將視頻序列的時間軸壓縮為通道維度,並提出了一種輕量級視頻識別網絡,稱為SqueezeTime,用於移動視頻理解。為了增強所提出網絡的時間建模能力,我們設計了一個通道-時間學習(CTL)塊來捕捉序列的時間動態。該模塊具有兩個互補的分支,其中一個分支用於學習時間重要性,另一個分支具有時間位置恢復能力,以增強跨時間對象建模能力。所提出的SqueezeTime在移動視頻理解方面更輕量且速度更快,並具有較高的準確性。對各種視頻識別和動作檢測基準進行了大量實驗,例如Kinetics400、Kinetics600、HMDB51、AVA2.1和THUMOS14,這些實驗證明了我們模型的優越性。例如,我們的SqueezeTime在Kinetics400上的準確性提高了+1.2%,GPU吞吐量提高了+80%,優於先前的方法。代碼可在以下鏈接公開獲取:https://github.com/xinghaochen/SqueezeTime 和 https://github.com/mindspore-lab/models/tree/master/research/huawei-noah/SqueezeTime。
近來,整合語音和大型語言模型(SLMs)以遵循語音指令並生成相關文本回應的能力日益受到青睞。然而,這些模型的安全性和韌性仍然存在著很大的不明確性。在這項研究中,我們調查了這類遵循指令的語音語言模型對敵對攻擊和越獄的潛在弱點。具體來說,我們設計了能夠在白盒和黑盒攻擊環境中生成敵對示例以越獄SLMs的算法,而無需人類參與。此外,我們提出了防範此類越獄攻擊的對策。我們的模型在訓練時使用了帶有語音指令的對話數據,並在口語問答任務上實現了最先進的性能,得分在安全性和幫助性指標上均超過80%。儘管存在安全防護措施,但對越獄的實驗表明SLMs對敵對干擾和轉移攻擊的脆弱性,當在一個涵蓋12個不同有害類別的精心設計的問題數據集上評估時,平均攻擊成功率分別為90%和10%。然而,我們展示了我們提出的對策顯著降低了攻擊成功率。