每日精選AI研究論文及翻譯
我們提出了Movie Gen,這是一組基礎模型,可生成具有不同寬高比和同步音頻的高質量、1080p高清視頻。我們還展示了其他功能,如基於精確指令的視頻編輯以及基於用戶圖像生成個性化視頻。我們的模型在多個任務上設定了新的技術水準:文本到視頻合成、視頻個性化、視頻編輯、視頻到音頻生成以及文本到音頻生成。我們最大的視頻生成模型是一個擁有30B參數的Transformer,訓練時最大上下文長度為73K個視頻標記,對應生成的視頻為16秒,每秒16幀。我們展示了在架構、潛在空間、訓練目標和配方、數據整理、評估協議、並行化技術以及推理優化方面的多項技術創新和簡化,這些使我們能夠從擴展預訓練數據、模型大小和訓練計算中受益,以訓練大規模媒體生成模型。我們希望本文能幫助研究界加速媒體生成模型的進步和創新。本文中的所有視頻均可在https://go.fb.me/MovieGenResearchVideos 上找到。
對於人工智慧模型來說,感知和生成多樣性形式是至關重要的,以便有效地從現實世界的信號中學習並互動,這需要可靠的評估來促進其發展。我們確定了當前評估中的兩個主要問題:(1) 不一致的標準,由不同社群形成,具有不同的協議和成熟度水平;以及(2) 顯著的查詢、評分和泛化偏差。為了應對這些問題,我們引入了MixEval-X,這是第一個任意-任意的現實世界基準,旨在優化和標準化跨輸入和輸出形式的評估。我們提出了多模態基準混合和適應-校正管道,以重建現實世界任務分佈,確保評估能夠有效地泛化到現實世界的使用案例。廣泛的元評估顯示,我們的方法有效地將基準樣本與現實世界任務分佈對齊,並且模型排名與眾包的現實世界評估密切相關(高達0.98)。我們提供了全面的排行榜來重新排列現有的模型和組織,並提供見解,以增進對多模態評估的理解,並為未來研究提供信息。
基於LLM的評審已成為人類評估的可擴展替代方案,並越來越被用於評估、比較和改進模型。然而,對LLM評審本身的可靠性很少受到審查。隨著LLMs變得更加先進,它們的回應變得更加複雜,需要更強大的評審來評估它們。現有的基準主要集中在評審與人類偏好的一致性,但往往未能考慮到更具挑戰性的任務,在這些任務中,眾包人類偏好是對事實和邏輯正確性的一個不良指標。為了應對這一問題,我們提出了一個新穎的評估框架,以客觀評估基於LLM的評審。基於這個框架,我們提出了JudgeBench,這是一個用於評估基於LLM的評審在跨知識、推理、數學和編碼的具有挑戰性的回應對上的基準。JudgeBench利用一個新穎的流程將現有的困難數據集轉換為具有反映客觀正確性的偏好標籤的具有挑戰性的回應對。我們對一系列提示評審、微調評審、多代理評審和獎勵模型進行了全面評估,結果顯示JudgeBench比以前的基準具有更大的挑戰性,許多強大模型(例如GPT-4o)的表現僅略優於隨機猜測。總的來說,JudgeBench提供了一個可靠的平台,用於評估日益先進的基於LLM的評審。數據和代碼可在https://github.com/ScalerLab/JudgeBench 上找到。
在視覺領域中,擴展自回歸模型並未像大型語言模型那樣帶來顯著好處。本研究探討了這個擴展問題,專注於文本到圖像生成的情境,著重於兩個關鍵因素:模型是否使用離散或連續的標記,以及標記是以隨機還是固定的光柵順序生成,並使用BERT或GPT等變壓器架構。我們的實證結果顯示,儘管所有模型在驗證損失方面有效擴展,但它們的評估表現──以FID、GenEval分數和視覺質量來衡量──呈現不同趨勢。基於連續標記的模型在視覺質量上顯著優於使用離散標記的模型。此外,生成順序和注意機制對GenEval分數有顯著影響:隨機順序模型的GenEval分數明顯優於光柵順序模型。受到這些發現的啟發,我們訓練了Fluid,這是一個基於連續標記的隨機順序自回歸模型。Fluid 10.5B模型在MS-COCO 30K上實現了新的零樣本FID最佳值為6.16,並在GenEval基準測試中獲得了0.69的總分。我們希望我們的發現和結果能夠鼓勵未來努力進一步彌合視覺和語言模型之間的擴展差距。
本文介紹了Janus,一個統一的自回歸框架,用於多模態理解和生成。先前的研究通常依賴於單一的視覺編碼器來處理這兩個任務,如Chameleon。然而,由於多模態理解和生成需要不同細節層次的信息,這種方法可能導致性能不佳,尤其在多模態理解方面。為了解決這個問題,我們將視覺編碼分解為獨立的路徑,同時仍然利用單一統一的Transformer架構進行處理。這種分解不僅減輕了視覺編碼器在理解和生成中角色之間的衝突,還增強了框架的靈活性。例如,多模態理解和生成組件都可以獨立選擇最適合的編碼方法。實驗表明,Janus超越了先前的統一模型,並且與任務特定模型的性能相匹敵或超越。Janus的簡單性、高靈活性和有效性使其成為下一代統一多模態模型的強勢候選。
大型語言模型(LLMs)的成功促使了整合語音和音頻數據的努力,旨在創建能夠處理文本和非文本輸入的通用基礎模型。最近的進展,如GPT-4o,突顯了端到端語音LLMs的潛力,該模型保留了非語義信息和世界知識,以實現更深入的語音理解。為了指導語音LLMs的發展,我們提出了一個五級路線圖,從基本的自動語音識別(ASR)到能夠將非語義信息與抽象聲學知識整合以處理複雜任務的高級超人模型。此外,我們設計了一個名為SAGI Benchmark的基準,標準化了這五個級別中各種任務的關鍵方面,揭示了使用抽象聲學知識和功能完整性時的挑戰。我們的研究結果揭示了在處理語音提示和抽象聲學知識方面存在的差距,並提出了未來的方向。本文概述了推進語音LLMs的路線圖,介紹了一個評估基準,並提供了有關它們目前限制和潛力的關鍵見解。
目前的手機助理受限於對系統 API 的依賴,或者因理解和決策能力有限而難以應對複雜的使用者指令和多樣的界面。為了應對這些挑戰,我們提出了 MobA,一個由多模式大型語言模型驅動的新型手機代理,通過精密的雙層代理架構增強了理解和規劃能力。高層全局代理(GA)負責理解使用者指令、追蹤歷史記憶和規劃任務。低層本地代理(LA)預測以函數調用形式的詳細操作,受 GA 的子任務和記憶引導。整合反射模組可實現高效的任務完成,使系統能夠處理以前未見過的複雜任務。MobA 在現實評估中展示了任務執行效率和完成率的顯著提升,突顯了以 MLLM 為動力的手機助理的潛力。
視覺語言模型(VLMs)常常在文化特定知識方面遇到困難,特別是在英語以外的語言和少數文化背景中。為了評估它們對這類知識的理解,我們引入了WorldCuisines,這是一個大規模的多語言和多文化視覺語言理解基準。這個基準包括一個視覺問答(VQA)數據集,跨越30種語言和方言,涵蓋9個語言家族,包含超過100萬條數據,是迄今為止最大的多文化VQA基準。它包括識別菜名及其來源的任務。我們提供了兩個尺寸的評估數據集(12k和60k個實例),以及一個訓練數據集(100萬個實例)。我們的研究結果顯示,雖然VLMs在正確的位置上下文中表現更好,但在對抗性上下文和預測特定地區美食和語言方面表現不佳。為了支持未來的研究,我們釋出了一個帶有標註食品條目和圖像的知識庫,以及VQA數據。
文字豐富的視覺理解——即處理將密集文本內容與視覺元素結合的能力——對於多模式大型語言模型(MLLMs)與結構化環境有效互動至關重要。為了增強這種能力,我們提出使用基於文本的大型語言模型(LLMs)從網頁UI中合成通用多模式指令。儘管缺乏直接的視覺輸入,基於文本的LLMs能夠處理來自網頁可訪問性樹的結構化文本表示。這些指令隨後與UI截圖配對,用於訓練多模式模型。我們介紹了MultiUI,一個包含來自100萬個網站的730萬樣本的數據集,涵蓋各種多模式任務和UI佈局。在MultiUI上訓練的模型不僅在Web UI任務上表現出色——在VisualWebBench上取得高達48%的改進,在Web代理數據集Mind2Web上的行動準確度提高了19.1%——而且驚人地泛化到非Web UI任務,甚至到非UI領域,如文檔理解、OCR和圖表解讀。這些結果突顯了Web UI數據在促進各種情境下文字豐富的視覺理解方面的廣泛應用性。
最近在定制視頻生成方面取得了重大進展,使用戶能夠創建針對特定主題和運動軌跡的視頻。然而,現有方法通常需要複雜的測試時微調,並且在平衡主題學習和運動控制方面存在困難,限制了它們在現實世界中的應用。本文提出了DreamVideo-2,一種零樣本視頻定制框架,能夠生成具有特定主題和運動軌跡的視頻,分別由單張圖像和邊界框序列引導,而無需進行測試時微調。具體來說,我們引入了參考注意力,利用模型固有的主題學習能力,並設計了一個基於遮罩引導的運動模塊,通過充分利用從邊界框中獲得的框遮罩的強大運動信號來實現精確的運動控制。儘管這兩個組件實現了它們預期的功能,但我們在實驗中觀察到運動控制往往佔主導地位而壓倒了主題學習。為了解決這個問題,我們提出了兩個關鍵設計:1) 遮罩參考注意力,將混合潛在遮罩建模方案整合到參考注意力中,以增強所需位置的主題表示,以及2) 重新加權擴散損失,區分邊界框內外區域對主題和運動控制的貢獻,以確保平衡。對新編制的數據集進行的大量實驗結果表明,DreamVideo-2在主題定制和運動控制方面優於最先進的方法。數據集、代碼和模型將公開提供。
人工智慧(AI)在醫療保健領域展現了顯著的潛力,特別是在疾病診斷和治療規劃方面。醫學大型視覺語言模型(Med-LVLMs)的最新進展為互動式診斷工具開辟了新的可能性。然而,這些模型常常存在事實幻覺問題,可能導致錯誤診斷。微調和檢索增強生成(RAG)已經成為解決這些問題的方法。然而,高質量數據的量以及訓練數據與部署數據之間的分布偏移限制了微調方法的應用。儘管RAG輕量且有效,現有基於RAG的方法對於不同醫學領域並不足夠通用,可能導致模態之間以及模型與真實情況之間的不一致問題。本文提出了一個多功能多模態RAG系統,MMed-RAG,旨在增強Med-LVLMs的事實性。我們的方法引入了一個具有領域感知的檢索機制、一種自適應檢索上下文選擇方法,以及一種可證明的基於RAG的偏好微調策略。這些創新使得RAG過程足夠通用和可靠,顯著提高了引入檢索上下文時的一致性。在五個醫學數據集(包括放射學、眼科學、病理學)上的醫學VQA和報告生成實驗結果表明,MMed-RAG可以使Med-LVLMs的事實準確性平均提高43.8%。我們的數據和代碼可在https://github.com/richard-peng-xia/MMed-RAG 上獲得。
在這項工作中,我們升級了 Transformer 模型的核心,即多頭注意力機制,以提高效率,同時保持或超越先前的準確性水平。我們表明多頭注意力可以用總和形式表示。基於並非所有注意力頭具有相等重要性的見解,我們提出了「頭部混合注意力」(MoH),這是一種新的架構,將注意力頭視為「專家混合」(MoE)機制中的專家。MoH 具有兩個顯著優勢:首先,MoH 使每個標記可以選擇適當的注意力頭,增強推理效率,而不會影響準確性或增加參數數量。其次,MoH 將多頭注意力中的標準總和替換為加權總和,為注意力機制引入靈活性,並發揮額外的性能潛力。對 ViT、DiT 和 LLMs 的大量實驗表明,MoH 通過僅使用 50%-90% 的注意力頭就優於多頭注意力。此外,我們證明預訓練的多頭注意力模型,如 LLaMA3-8B,可以進一步調整為我們的 MoH 模型。值得注意的是,MoH-LLaMA3-8B 在 14 個基準測試中實現了平均 64.0% 的準確性,僅使用 75% 的注意力頭就比 LLaMA3-8B 優越 2.4%。我們相信提出的 MoH 是多頭注意力的一個有前途的替代方案,為開發先進且高效的基於注意力的模型奠定了堅實基礎。
評估大型語言模型(LLMs)成本高昂:需要在各種任務的大規模基準測試中生成和檢查LLM輸出。本文探討如何有效地減少用於評估LLMs的任務,而不影響評估質量。我們的研究顯示,任務的可轉移性和相關性提供了關鍵信息,可通過優化設施位置函數來識別最具代表性的任務子集。我們提出了一種實際高效的度量標準,用於通過上下文學習(ICL)估算兩個任務之間的可轉移性。通過分析成對的可轉移性,我們可以將現代LLM基準測試(例如MMLU或FLAN)中的任務減少到5%,同時僅對原始基準測試的評估造成不到4%的差異。與先前的研究相比,我們的方法無需訓練,無需梯度,僅需要ICL,極其高效。
大型語言模型(LLMs)的對齊涉及訓練模型以偏好-對比輸出對來根據人類偏好調整其響應。為獲取這樣的對比對,傳統方法如RLHF和RLAIF依賴於有限的對比模式,例如變化的模型變體或解碼溫度。這種單一性導致兩個問題:(1)對齊不夠全面;因此(2)模型容易受到越獄攻擊的影響。為解決這些問題,我們研究如何構建更全面和多樣化的對比模式以增強偏好數據(RQ1),並驗證對比模式多樣化對模型對齊的影響(RQ2)。對於RQ1,我們提出了PopAlign,一個整合了跨提示、模型和管道級別的多樣化對比模式的框架,引入了六種不需要額外反饋標記程序的對比策略。關於RQ2,我們進行了深入的實驗,證明PopAlign明顯優於現有方法,從而實現更全面的對齊。
讓大型語言模型(LLMs)處理更廣泛的複雜任務(例如編碼、數學)已經引起許多研究人員的極大關注。隨著LLMs不斷演進,僅僅增加模型參數數量會帶來遞減的性能改進和龐大的計算成本。最近,OpenAI的o1模型表明推理策略(即測試時計算方法)也可以顯著增強LLMs的推理能力。然而,這些方法背後的機制仍未被探索。在我們的研究中,為了探究o1的推理模式,我們使用OpenAI的GPT-4o作為基礎,在三個領域(即數學、編碼、常識推理)的通用推理基準上,將o1與現有的測試時計算方法(BoN、逐步BoN、Agent Workflow和Self-Refine)進行比較。具體而言,首先,我們的實驗表明o1模型在大多數數據集上取得了最佳性能。其次,對於搜尋多樣性回應的方法(例如BoN),我們發現獎勵模型的能力和搜索空間都限制了這些方法的上限。第三,對於將問題分解為許多子問題的方法,由於Agent Workflow具有更好的領域特定系統提示以規劃更好的推理過程,因此Agent Workflow的性能優於逐步BoN。第四,值得一提的是,我們總結了o1的六種推理模式,並對幾個推理基準進行了詳細分析。
事後訓練已成為調整大型預訓練模型以適應各種任務的重要範式,其效果完全由增量參數(即事後訓練和預訓練參數之間的差異)所反映。儘管許多研究已通過剪枝、量化、低秩近似和外推等操作探索了增量參數的特性,但尚缺乏一個系統性地檢驗這些特性的統一框架。本文提出了一種基於損失函數的黎曼和逼近的新觀點,以闡明增量參數編輯操作。我們的分析將現有方法分為三類,根據它們的後編輯性能:競爭性、降低性和改進性,解釋它們如何通過黎曼和逼近項表達以及如何改變模型性能。對視覺和語言模型(包括ViT、LLaMA 3、Qwen 2和Mistral)進行了大量實驗,證實了我們的理論發現。此外,我們對現有技術進行了擴展,如DARE和BitDelta,突顯了它們在利用增量參數的特性和重新組織成通用表達式以增強事後訓練模型中增量參數編輯的適用性和有效性方面的局限性。
最近,量化已被廣泛應用於壓縮和加速大型語言模型(LLMs)。由於LLMs中存在離群值,將權重和激活值展平以最小化量化誤差與等間距量化點至關重要。先前的研究探索了各種預量化轉換來抑制離群值,例如通道內縮放和Hadamard轉換。然而,我們觀察到這些轉換後的權重和激活值仍可能保持陡峭且分散。在本文中,我們提出了FlatQuant(快速且可學習的仿射轉換),這是一種新的後訓練量化方法,旨在增強權重和激活值的平坦度。我們的方法通過輕量化目標識別針對每個線性層量身定制的最佳仿射變換,經過數小時的校準。為了減少運行時開銷,我們將Kronecker分解應用於轉換矩陣,並將FlatQuant中的所有操作融合為單個核心。大量實驗表明,FlatQuant建立了一個新的最先進的量化基準。例如,在LLaMA-3-70B模型上進行W4A4量化時,其精度僅下降不到1%,超越SpinQuant 7.5%。對於推理延遲,FlatQuant將由預量化轉換引起的減速從QuaRot的0.26倍降低到僅0.07倍,分別帶來預填充的最高2.3倍加速和解碼的最高1.7倍加速。代碼可在以下鏈接找到:https://github.com/ruikangliu/FlatQuant。
全景圖像拼接提供了一個統一的、廣角的場景視圖,超出了相機的視野範圍。將一段全景攝影中的影格拼接成全景照片對於靜止場景是一個眾所周知的問題,但當物體移動時,靜態全景無法捕捉到場景。我們提出了一種從隨意拍攝的全景攝影中合成全景視頻的方法,就好像原始視頻是用廣角相機拍攝的一樣。我們將全景合成定義為一個時空外描繪問題,我們的目標是創建一個與輸入視頻相同長度的完整全景視頻。對時空體積的一致完成需要對視頻內容和運動進行強大、逼真的先驗,為此我們適應了生成式視頻模型。然而,現有的生成模型並不能立即擴展到全景完成,正如我們所展示的。相反,我們將視頻生成應用為全景合成系統的一部分,並展示如何利用模型的優勢同時最小化它們的局限性。我們的系統可以為各種野外場景創建視頻全景,包括人物、車輛和流動的水,以及靜止的背景特徵。
儘管大型語言模型(LLMs)展現出在各種任務中令人印象深刻的熟練度,但它們存在潛在的安全風險,例如“越獄”,惡意輸入可能迫使LLMs生成有害內容。為了應對這些問題,許多LLM開發者已實施各種安全措施來調整這些模型。這種調整涉及多種技術,包括在預訓練期間進行數據過濾、監督微調、從人類反饋中進行強化學習以及紅隊演習。這些方法通常引入了類似政治正確性(PC)的故意偏見,以確保LLMs的道德行為。本文深入探討了為安全目的注入LLMs的故意偏見,並檢視繞過這些安全調整技術的方法。值得注意的是,這些故意偏見導致在GPT-4o模型中越獄成功率在非二元和同性別關鍵字之間相差20%,在白人和黑人關鍵字之間相差16%,即使提示的其他部分完全相同。我們引入了PCJailbreak的概念,突顯了這些安全誘發偏見所帶來的固有風險。此外,我們提出了一種有效的防禦方法PCDefense,通過在生成之前注入防禦提示,防止越獄企圖。PCDefense作為一種吸引人的替代方案,與需要在生成文本後進行額外推理成本的防護模型(如Llama-Guard)形成對比。我們的研究強調了LLM開發者在設計和實施安全措施時需要採取更負責任的方法的迫切性。
隨著多模態大型語言模型(MLLMs)的能力不斷提升,對於對MLLMs進行高階能力評估的需求也在增加。然而,目前對於評估MLLM在對中文視覺內容進行高階感知和理解方面的研究仍然不足。為了填補這一空白,我們引入了**中文圖像涵義理解基準測試**,簡稱**CII-Bench**,旨在評估MLLM對於中文圖像的高階感知和理解能力。與現有基準測試相比,CII-Bench在幾個方面具有獨特性。首先,為確保中文語境的真實性,CII-Bench中的圖像來自中文互聯網並經過人工審查,相應的答案也是人工製作的。此外,CII-Bench還包含代表中國傳統文化的圖像,如著名的中國傳統繪畫,這些圖像可以深刻反映模型對中國傳統文化的理解。通過對多個MLLM在CII-Bench上進行廣泛實驗,我們取得了重要發現。首先,觀察到MLLM在CII-Bench上的表現與人類之間存在顯著差距。MLLM的最高準確率為64.4%,而人類的平均準確率為78.2%,最高可達令人印象深刻的81.0%。隨後,MLLM在中國傳統文化圖像上表現較差,表明它們在理解高層語義方面存在局限性,並且缺乏對中國傳統文化的深入知識庫。最後,觀察到當圖像情感提示納入提示時,大多數模型的準確率有所提高。我們相信CII-Bench將使MLLM能夠更好地理解中文語義和中文特定圖像,推進邁向專家級人工通用智能(AGI)的旅程。我們的項目可在https://cii-bench.github.io/ 公開獲取。
生成式錯誤修正(GEC)已成為一種強大的後處理方法,可提升自動語音識別(ASR)系統的性能。然而,我們發現GEC模型在訓練期間遇到的特定錯誤類型之外很難進行泛化,限制了它們在測試時修正新的、未見過的錯誤的能力,特別是在域外(OOD)情況下。這種現象在命名實體(NEs)方面尤為明顯,除了缺乏有關NEs的上下文信息或知識外,還不斷出現新的NEs。為解決這些問題,我們提出了DARAG(數據和檢索增強生成式錯誤修正),這是一種旨在改進ASR中GEC在域內(ID)和OOD情況下的方法。我們通過提示LLMs和文本轉語音模型生成的合成數據來擴充GEC訓練數據集,從而模擬模型可以學習的額外錯誤。對於OOD情況,我們以相似且無監督的方式模擬新域的測試時錯誤。此外,為了更好地處理命名實體,我們引入了檢索增強校正,通過從數據庫檢索的實體來擴充輸入。我們的方法簡單、可擴展,且不受域和語言的限制。我們在多個數據集和設置上進行實驗,結果顯示DARAG優於所有基準,ID情況下相對WER改進8%-30%,OOD情況下改進10%-33%。
大型語言模型(LLMs)與使用者之間的多輪互動自然包含隱式反饋信號。如果一個LLM對指令做出意外的回應,使用者可能會通過重新表達請求、表達挫折感或轉向另一個任務來表達這一點。這些信號與任務無關,並且佔據語言的一個相對受限制的子空間,使得LLM可以識別它們,即使在實際任務上失敗。這為從互動中持續學習提供了一個途徑,而無需額外的標註。我們介紹了ReSpect,一種通過回顧來從過去互動中學習這些信號的方法。我們在一個新的多模態互動場景中部署了ReSpect,在該場景中,人類指示一個LLM解決具有組合解空間的抽象推理任務。通過與人類的成千上萬次互動,我們展示了ReSpect如何逐漸將任務完成率從31%提高到82%,而無需任何外部標註。
大型語言模型(LLMs)的發展顯著增強了多模態LLMs(MLLMs)作為通用助手的能力。然而,缺乏用戶特定知識仍然限制了它們在人類日常生活中的應用。在本文中,我們介紹了用於MLLMs個性化的檢索增強個性化(RAP)框架。從一個通用的MLLM開始,我們將其轉化為個性化助手的三個步驟。 (a) 記憶:我們設計了一個鍵值數據庫來存儲與用戶相關的信息,例如用戶的姓名、頭像和其他屬性。 (b) 檢索:當用戶啟動對話時,RAP將使用多模態檢索器從數據庫檢索相關信息。 (c) 生成:將輸入查詢和檢索到的概念信息餵入MLLMs以生成個性化、知識增強的回應。與以往方法不同,RAP允許通過更新外部數據庫來進行實時概念編輯。為了進一步提高生成質量並與用戶特定信息對齊,我們設計了一個數據收集流程並創建了一個用於MLLMs個性化訓練的專門數據集。基於該數據集,我們訓練了一系列個性化多模態助手的MLLMs。通過在大規模數據集上預訓練,RAP-MLLMs可以在不進行額外微調的情況下概括到無限的視覺概念。我們的模型在各種任務中展示出優秀的靈活性和生成質量,例如個性化圖像標題、問答和視覺識別。代碼、數據和模型可在https://github.com/Hoar012/RAP-MLLM找到。
生成與視頻的視覺內容相符的音樂一直是一項具有挑戰性的任務,因為這需要對視覺語義有深入的理解,並涉及生成旋律、節奏和動態與視覺敘事和諧的音樂。本文提出了MuVi,一個新穎的框架,有效應對這些挑戰,以增強音視頻內容的連貫性和沉浸式體驗。MuVi通過一個特別設計的視覺適配器分析視頻內容,以提取具有上下文和時間相關性的特徵。這些特徵用於生成不僅與視頻的情緒和主題相匹配,還與其節奏和節奏相協調的音樂。我們還引入了對比的音樂-視覺預訓練方案,以確保同步,基於音樂短語的周期性特性。此外,我們展示了我們基於流匹配的音樂生成器具有上下文學習能力,使我們能夠控制生成音樂的風格和流派。實驗結果表明,MuVi在音頻質量和時間同步方面表現出優異的性能。生成的音樂視頻樣本可在https://muvi-v2m.github.io上找到。
語言模型(LMs)在醫學領域展示了專家級的推理和回憶能力。然而,計算成本和隱私問題正在成為廣泛應用的障礙。我們介紹了一種簡潔的改編phi-3-mini,MedMobile,這是一個擁有38億參數的LM,可以在移動設備上運行,用於醫學應用。我們展示了MedMobile在MedQA(USMLE)上取得了75.7%的分數,超過了醫生的及格分數(約60%),並接近其100倍大小模型的分數。我們隨後進行了一系列仔細的消融實驗,並展示了思維鏈、集成和微調對性能提升的最大影響,而意外的檢索增強生成未能顯示出顯著改進。
儘管多模式大型語言模型(MLLMs)取得了顯著進展,但其高計算成本仍然是實際部署的障礙。受自然語言處理中深度混合(MoDs)的啟發,我們旨在從性能的角度解決這一限制,即從“啟動標記”角度。我們的關鍵洞察是,如果大多數標記對於層計算是多餘的,則可以通過MoD層直接跳過。然而,將MLLMs的密集層直接轉換為MoD層會導致顯著的性能下降。為解決此問題,我們提出了一種創新的MoD適應策略,稱為gamma-MoD。在gamma-MoD中,提出了一種新的指標來指導MLLM中MoDs的部署,即注意力圖的排名(ARank)。通過ARank,我們可以有效地識別哪些層是多餘的,應該用MoD層替換。基於ARank,我們進一步提出了兩種新設計,以最大程度地提高MLLM的計算稀疏性,同時保持其性能,即共享視覺-語言路由器和遮罩路由學習。通過這些設計,MLLM的超過90%的密集層可以有效轉換為MoD層。為驗證我們的方法,我們將其應用於三種流行的MLLM,並在9個基準數據集上進行了大量實驗。實驗結果不僅驗證了gamma-MoD對現有MLLM的顯著效率優勢,還確認了其對各種MLLM的泛化能力。例如,通過微小的性能下降,即-1.5%,gamma-MoD可以將LLaVA-HR的訓練和推理時間分別減少31.0%和53.2%。
模型規模的快速增長需要大量的計算資源進行微調。現有方法如低秩適應(LoRA)已經開始解決處理完全微調中的大量更新參數的問題。然而,LoRA利用隨機初始化和低秩矩陣的優化來近似更新權重,這可能導致次優的收斂和準確性差距,相較於完全微調。為了解決這些問題,我們提出了LoLDU,一種參數高效微調(PEFT)方法,與常規PEFT方法相比,可將可訓練參數減少2600倍,同時保持可比的性能。LoLDU利用下三角-對角-上三角分解(LDU)來初始化低秩矩陣,以實現更快的收斂和正交性。我們專注於優化對角矩陣以進行比例轉換。據我們所知,LoLDU在所有PEFT方法中具有最少的參數。我們在4個指示遵循數據集、6個自然語言理解(NLU)數據集、8個圖像分類數據集和多個模型類型(LLaMA2、RoBERTa、ViT和Stable Diffusion)的圖像生成數據集上進行了廣泛實驗,提供了全面和詳細的分析。我們的開源代碼可在以下網址訪問:https://github.com/SKDDJ/LoLDU。
在幫助減緩氣候變化到推動下一代計算硬體的進步等眾多應用中,發現具有理想特性的新材料的能力至關重要。人工智慧有潛力通過比其他計算方法或試錯法更有效地探索化學空間來加速材料發現和設計。儘管在材料數據、基準測試和模型的人工智慧方面取得了重大進展,但出現了一個障礙,即缺乏公開可用的訓練數據和開放的預訓練模型。為了解決這個問題,我們提出了一個 Meta FAIR 發布的 Open Materials 2024(OMat24)大規模開放數據集,以及一組相應的預訓練模型。OMat24 包含超過1.1億個密度泛函理論(DFT)計算,重點關注結構和成分多樣性。我們的 EquiformerV2 模型在 Matbench Discovery 排行榜上實現了最先進的性能,能夠預測基態穩定性和形成能量,其 F1 分數超過0.9,準確度分別達到20 毫電子伏特/原子。我們探討了模型大小、輔助去噪目標以及對 OMat24、MPtraj 和 Alexandria 等一系列數據集的性能進行微調的影響。OMat24 數據集和模型的開放發布使研究社區能夠在我們的努力基礎上進一步推動人工智慧輔助材料科學的進步。
我們提出了Long-LRM,一個通用的3D高斯重建模型,能夠從一長序列的輸入圖像中重建出一個大場景。具體來說,我們的模型可以在單個A100 80G GPU上僅需1.3秒的時間內處理32張960x540解析度的源圖像。我們的架構採用了最新的Mamba2區塊和經典的Transformer區塊的混合,使得可以處理比以往更多的token,同時通過高效的token合併和高斯修剪步驟來在質量和效率之間取得平衡。與先前僅能處理1~4個輸入圖像並且僅能重建大場景的一小部分的前馈模型不同,Long-LRM可以在單個前馈步驟中重建整個場景。在大規模場景數據集(如DL3DV-140和Tanks and Temples)上,我們的方法實現了與基於優化的方法相當的性能,同時效率提高了兩個數量級。項目頁面:https://arthurhero.github.io/projects/llrm
隨著大型語言模型快速演進以支援更長的上下文,它們在生成較長輸出方面的能力存在明顯的不均衡。最近的研究表明,這種不平衡的主要原因可能來自於在對齊訓練期間缺乏長輸出的數據。鑒於這一觀察,人們試圖通過填補這一差距的數據重新對齊基礎模型,從而使這些模型能夠在指示時生成較長的輸出。在本文中,我們探討了在調整模型以生成長輸出時數據質量的影響,以及從人類對齊(指示或聊天)模型的起點開始進行調整的可能性。通過精心策劃數據,我們展示了在我們調整的模型中,只需少量訓練數據實例和計算即可實現類似的性能改進。此外,我們通過將我們的調整配方應用於幾個模型來評估這種方法的泛化能力。我們的研究結果表明,儘管不同模型在開箱即用時生成長輸出的能力存在差異,但我們使用高質量數據和輕量計算來調整它們的方法在我們實驗的所有模型中都持續顯著改進。我們已經公開了我們策劃的用於調整長文寫作能力的數據集,模型調整和評估的實施,以及經過微調的模型,所有這些都可以公開訪問。
無分類器引導(CFG)是增強視覺生成模型樣本質量的關鍵技術。然而,在自回歸(AR)多模態生成中,CFG引入了設計不一致性,使語言和視覺內容之間存在矛盾,違背了統一視覺AR不同模態的設計理念。受語言模型對齊方法的啟發,我們提出條件對比對齊(CCA)來促進無引導的AR視覺生成,實現高性能並分析其與引導抽樣方法的理論聯繫。與改變抽樣過程以實現理想抽樣分佈的引導方法不同,CCA直接微調預訓練模型以適應相同的分佈目標。實驗結果顯示,CCA可以顯著提升所有測試模型的無引導性能,僅需在預訓練數據集上進行一次微調(約佔預訓練時期的1\%),與引導抽樣方法不相上下。這在很大程度上消除了AR視覺生成中對引導抽樣的需求,並將抽樣成本降低了一半。此外,通過調整訓練參數,CCA可以在樣本多樣性和保真度之間實現權衡,類似於CFG。這在實驗中確認了語言目標對齊和視覺引導方法之間的強大理論聯繫,將兩個先前獨立的研究領域統一起來。代碼和模型權重:https://github.com/thu-ml/CCA。
專有語言模型的普及性引發了使用者對敏感數據隱私的擔憂,強調了私密推論(PI)的必要性,其中推論直接在加密輸入上執行。然而,目前的PI方法面臨著過高的通信和延遲開銷,主要是由於非線性操作。本文提出了一項全面分析,以了解基於Transformer解碼器的語言模型中非線性的作用。我們介紹了AERO,一個四步驟的架構優化框架,通過系統地去除諸如LayerNorm和GELU之類的非線性,並減少FLOPs計數,來優化現有的LLM架構,以實現有效的PI。我們首次提出了一種僅使用Softmax的架構,具有明顯較少的FLOPs,適用於高效的PI。此外,我們設計了一種新穎的熵正則化技術,以提高Softmax-only模型的性能。AERO實現了高達4.23倍的通信和1.94倍的延遲減少。我們通過與最先進技術的基準測試,驗證了AERO的有效性。
視覺語言基礎模型(如CLIP)最近展示了它們在遷移學習中的威力,這歸功於大規模圖像文本預訓練。然而,下游任務中的目標領域數據可能與預訓練階段大不相同,這使得單一模型很難很好地泛化。相反,存在著各種專家模型,這些模型包含在不同的模態、任務、網絡和數據集上預先訓練的多樣化視覺和/或語言知識。不幸的是,這些模型是“孤立代理”,具有異構結構,如何整合它們的知識以實現泛化CLIP模型尚未得到充分探索。為了彌合這一差距,我們提出了一個通用而簡潔的TransAgent框架,以統一的方式傳輸孤立代理的知識,並有效地引導CLIP通過多源知識蒸餾進行泛化。通過這樣一個獨特的框架,我們靈活地與11個異構代理合作,以增強視覺語言基礎模型,而在推理階段無需進一步成本。最終,我們的TransAgent在11個視覺識別數據集上實現了最先進的性能。在相同的低樣本設置下,它平均優於流行的CoOp約10%,在包含大型領域變化的EuroSAT上則高達20%。
許多學生在數學應用題中遇到困難,常常難以識別關鍵信息並選擇適當的數學運算。基於模式的教學(SBI)是一種證據支持的策略,幫助學生根據問題結構進行分類,提高解題準確性。在此基礎上,我們提出了一個基於模式的教學檢索增強生成(SBI-RAG)框架,融入了大型語言模型(LLM)。我們的方法強調逐步推理,通過利用模式來引導解決方案生成。我們在GSM8K數據集上評估其性能,並與GPT-4和GPT-3.5 Turbo進行比較,引入了“推理分數”指標來評估解決方案的質量。我們的研究結果表明,SBI-RAG提升了推理清晰度和解題準確性,可能為學生提供教育上的好處。