每日精選AI研究論文及翻譯
我們提出了MM1.5,這是一個新的多模式大型語言模型(MLLMs)家族,旨在增強文本豐富的圖像理解、視覺參照和基礎定位,以及多圖像推理的能力。在MM1架構的基礎上,MM1.5採用了以數據為中心的模型訓練方法,系統性地探索了在整個模型訓練生命週期中不同數據混合的影響。這包括高質量的OCR數據和合成標題用於持續預訓練,以及針對監督微調的優化視覺指導調整數據混合。我們的模型範圍從10億到30億個參數,包括密集型和專家混合(MoE)變體,並且表明精心策劃的數據整理和訓練策略即使在小規模(10億和30億)也能產生出色的性能。此外,我們還介紹了兩個專門的變體:MM1.5-Video,用於視頻理解,以及MM1.5-UI,專為移動UI理解而設計。通過大量的實證研究和消融實驗,我們提供了有關訓練過程和決策的詳細見解,這些見解為未來MLLM發展的研究提供了有價值的指導。
大型語言模型的指令遵循能力使人類能夠以自然的方式與人工智慧代理互動。然而,當需要生成特定長度的回應時,由於其固有的困難在準確感知數值約束方面,大型語言模型通常難以滿足用戶的需求。為了探索大型語言模型控制生成回應長度的能力,我們提出了目標長度生成任務(TLG),並設計了兩個指標,即精確匹配(PM)和靈活匹配(FM),來評估模型在遵循指定回應長度方面的表現。此外,我們引入了一種新穎的、與模型無關的方法稱為 Ruler,該方法利用元長度標記(MLTs)來增強大型語言模型在受到長度約束指令下的指令遵循能力。具體來說,Ruler使LLMs能夠根據指令中的長度約束生成指定長度的回應。此外,當長度約束未明確提供時,Ruler可以自動生成適當的MLT,展示出卓越的通用性和泛化能力。全面的實驗顯示了 Ruler 在不同LLMs上的目標長度生成任務中的有效性,例如在所有級別上PM平均增益為27.97,FM平均增益為29.57。此外,我們進行了廣泛的消融實驗,以進一步證實 Ruler 的功效和泛化能力。我們的代碼和數據可在 https://github.com/Geaming2002/Ruler 上找到。
我們提出了「超連結」,這是一種簡單而有效的方法,可作為替代殘差連結的選擇。這種方法專門解決了殘差連結變體中常見的缺點,例如梯度消失和表示崩潰之間的搖擺效應。從理論上講,超連結允許網絡調整不同深度特徵之間連結的強度,並動態重新排列層。我們進行了重點放在大型語言模型的預訓練上的實驗,包括密集和稀疏模型,在這些實驗中,超連結相較於殘差連結表現出顯著的性能改進。在視覺任務上進行的額外實驗也展示了類似的改進。我們預期這種方法將廣泛應用並在各種人工智慧問題上帶來益處。
在各個領域中,從學術話題到日常對話,特定領域對話數據集的稀缺限制了用於各種應用的對話系統的發展。現有研究通常受限於對話數據集要麼過於一般化,要麼是規模不足以滿足訓練對話系統所需規模的專業領域對話數據集。為了彌補這一差距,我們引入了DiaSynth - 一個合成對話生成框架,能夠跨越廣泛的領域生成高質量、具有情境豐富的對話。我們的方法與現有框架不同,通過動態生成對話,將模擬的人物、子話題和多樣的對話特徵融入其中,使用具有思維鏈 (CoT) 推理的大型語言模型 (LLM) 來創建情境豐富、特定領域的對話,以模擬自然的人類互動。DiaSynth生成符合實際對話的定制對話。我們通過使用不同的LLM和DialogSum以及SAMSum的少樣本示例生成合成數據來進行實驗。在合成數據上微調的預訓練語言模型的性能優於基本模型16.47%,而在領域內數據和合成數據上微調的模型之間的比較顯示,合成數據能夠捕捉到領域內數據的90.48%分佈。生成的數據質量也隨著LLM的大小而提高。這些結果驗證了DiaSynth作為傳統數據收集方法的堅固替代方案的潛力。
注意機制,特別是 softmax 注意力,對於基於 Transformer 的模型如 GPT 的成功至關重要。然而,相對於序列長度的二次記憶複雜度使 softmax 注意力面臨處理較長序列時的重大挑戰。我們引入了 Cottention,一種新穎的注意力機制,將 softmax 運算替換為餘弦相似度。通過利用餘弦相似度的特性並重新排列注意力方程式,Cottention 實現了相對於序列長度的本地線性記憶複雜度,使其比 softmax 注意力在記憶效率上更具優勢。我們證明 Cottention 可以重新表述為具有有限隱藏狀態的循環神經網絡(RNN),在推論期間實現恆定的記憶使用。我們在雙向 BERT 和因果 GPT 任務上評估了 Cottention,展示了與 softmax 注意力相當的性能,同時顯著降低了記憶需求。為確保有效計算,我們為 Cottention 開發了自定義的 CUDA 內核。我們的結果表明,Cottention 是 softmax 注意力的一個有前途的替代方案,能夠處理更長序列而不會犧牲性能,這是由於其本地線性記憶複雜度和在推論期間保持恆定記憶占用的能力。
過去對機器人操作的研究基於對底層三維運動約束和可利用性的有限理解。為了應對這些挑戰,我們提出了一個全面的範式,稱為UniAff,將三維物體為中心的操作和任務理解集成在統一的公式中。具體而言,我們構建了一個帶有操作相關關鍵屬性標籤的數據集,包括來自19個類別的900個可關節物體和來自12個類別的600個工具。此外,我們利用MLLMs推斷操作任務的物體為中心的表示,包括可利用性識別和對三維運動約束的推理。在模擬和現實世界環境中進行的全面實驗表明,UniAff顯著改善了對工具和可關節物體的機器人操作的泛化能力。我們希望UniAff將成為未來統一機器人操作任務的一個通用基準。圖像、視頻、數據集和代碼已發布在項目網站上:https://sites.google.com/view/uni-aff/home
如今訓練通用型機器人模型的一大障礙是異質性。先前的機器人學習方法通常收集數據以訓練特定體現的特定任務,這既昂貴又容易過度擬合。本研究探討了通過在不同體現和規模的機器人數據上進行異質性預訓練來學習策略表示的問題。我們提出了異質預訓練變壓器(HPT),它預先訓練一個大型、可共享的策略神經網絡主幹,以學習任務和體現不可知的共享表示。這種通用架構將來自不同體現的特定本體感覺和視覺輸入對齊到一系列短令牌,然後處理這些令牌以映射到不同任務的控制機器人。利用最近的大規模多體現現實世界機器人數據集以及模擬、部署的機器人和人類視頻數據集,我們研究了跨異質性預訓練策略。我們進行實驗來研究培訓目標的擴展行為,涵蓋了高達52個數據集。HPT在多個模擬器基準和現實世界環境中的未見任務上優於幾個基準線,並將微調策略的性能提高了超過20%。有關代碼和視頻,請參見項目網站(https://liruiw.github.io/hpt/)。
擴散模型生成的圖像在數字藝術和視覺營銷中越來越受歡迎。然而,這些生成的圖像可能複製現有內容,帶來內容原創性的挑戰。現有的圖像複製檢測(ICD)模型雖然在檢測手工複製品方面準確,但忽略了來自擴散模型的挑戰。這促使我們引入ICDiff,這是專門針對擴散模型的第一個ICD。為此,我們構建了一個擴散複製(D-Rep)數據集,並相應地提出了一種新穎的深度嵌入方法。D-Rep使用了一個最先進的擴散模型(穩定擴散 V1.5)生成了 40,000 張圖像複製對,這些對被手動標註為 6 個複製級別,範圍從 0(無複製)到 5(完全複製)。我們的方法 PDF-Embedding 將每個圖像複製對的複製級別轉換為概率密度函數(PDF)作為監督信號。直覺是相鄰複製級別的概率應該是連續且平滑的。實驗結果表明,PDF-Embedding 在 D-Rep 測試集上超越了協議驅動的方法和非 PDF 選擇。此外,通過利用 PDF-Embedding,我們發現知名擴散模型相對於開源畫廊的複製比例範圍從 10% 到 20%。
本文介紹了Coffee-Gym,一個用於訓練能夠提供程式碼編輯反饋的模型的全面RL環境。Coffee-Gym包括兩個主要組件:(1) Coffee,一個包含人類編碼問題的程式碼編輯軌跡和機器生成的錯誤程式碼編輯反饋的數據集;(2) CoffeeEval,一個獎勵函數,通過評估修改後程式碼在單元測試中的表現,忠實地反映反饋的幫助性。通過這兩者,Coffee-Gym解決了缺乏高質量數據集來訓練RL反饋模型的問題,並提供比SOTA獎勵模型(即GPT-4)更準確的獎勵。應用Coffee-Gym,我們引出了優於基準線的反饋模型,能夠增強開源代碼LLMs的程式碼編輯,使其與封閉源LLMs相媲美。我們將數據集和模型檢查點公開提供。
隨著大型語言模型(LLMs)變得日益先進,它們展現組合泛化的能力——即在訓練期間未曾遇到的新方式結合所學技能的能力——引起了廣泛關注。這種泛化類型,特別是在訓練數據之外的情境中,也在研究人工智慧安全和對齊方面引起了極大興趣。最近的一項研究引入了SKILL-MIX評估,其中模型被要求撰寫一段短段落,展示特定k元語言技能的應用。儘管小型模型在k=3時難以撰寫,但像GPT-4這樣的大型模型在k=5和6時表現相當不錯。 在本文中,我們採用了類似於SKILL-MIX的設置來評估較小模型從示例中學習組合泛化的能力。利用多樣的語言技能,包括修辭、文學、推理、心靈理論和常識,我們使用GPT-4生成展示k技能隨機子集的文本樣本。在這些結合技能文本上對7B和13B參數模型進行後續微調,並增加k的值,揭示了以下發現:(1)在組合k=2和3技能的訓練後,模型在撰寫具有k=4和5技能的文本時表現出明顯改善,儘管模型在訓練期間從未見過這樣的示例。(2)當技能類別分為訓練組和保留組時,模型在測試期間明顯改善了撰寫具有保留技能的文本,儘管在微調期間只見過訓練技能,這說明了即使是以前未見過的技能,訓練方法的有效性。這項研究還表明,將技能豐富(可能是合成的)文本納入訓練中可以顯著增強模型的組合能力。
問題分解已經成為促使大型語言模型 (LLMs) 回答複雜問題的有效策略。然而,現有方法主要集中在單模式語言模型,尚未探索多模式大型語言模型 (MLLMs) 的問題分解能力。因此,本文探討了在MLLMs上的視覺問題分解。具體來說,我們引入了一個系統性評估框架,包括一個數據集和幾個評估標準,以評估分解後子問題的質量,揭示現有的MLLMs難以生成高質量的子問題。為了解決這一限制,我們提出了一個特定的微調數據集DecoVQA+,以增強模型的問題分解能力。為了使模型能夠執行適當的選擇性分解,我們提出了一個高效的微調流程。微調流程包括我們提出的數據集和一個用於選擇性分解的訓練目標。經過微調的MLLMs在子問題的質量和選擇性問題分解政策方面取得了顯著的改善。此外,這些模型在VQA基準數據集上實現了更高的準確性。
音頻水印技術將訊息嵌入音頻中,並能準確地從帶水印的音頻中提取訊息。傳統方法基於專家經驗開發演算法,將水印嵌入信號的時域或變換域中。隨著深度神經網絡的發展,基於深度學習的神經音頻水印技術應運而生。與傳統演算法相比,神經音頻水印技術在訓練過程中考慮各種攻擊,實現更好的魯棒性。然而,當前的神經水印技術存在容量較低和感知性不佳的問題。此外,在神經音頻水印技術中更加突出的水印定位問題尚未得到充分研究。本文設計了一個雙嵌入水印模型以實現高效的定位。我們還考慮了攻擊層對可逆神經網絡在魯棒性訓練中的影響,改進模型以提高其合理性和穩定性。實驗表明,所提出的IDEAW模型相較於現有方法,具有更高的容量和更高效的定位能力,能夠抵禦各種攻擊。