每日精選AI研究論文及翻譯
有效的微調對於調整大型語言模型(LLMs)以適應下游任務至關重要。然而,在不同模型上實施這些方法需要不少努力。我們提出了LlamaFactory,這是一個統一的框架,整合了一套尖端的高效訓練方法。它允許用戶通過內置的Web UI LlamaBoard 靈活地自定義超過100個LLMs的微調,無需編碼。我們在語言建模和文本生成任務上實證了我們框架的效率和有效性。該框架已在https://github.com/hiyouga/LLaMA-Factory 上發布,並已獲得超過13,000顆星和1,600個分支。
Sora是第一個獲得社會廣泛關注的大規模通用視頻生成模型。自2024年2月由OpenAI推出以來,沒有其他視頻生成模型能夠與Sora的性能或支持廣泛視頻生成任務的能力相媲美。此外,僅有少數視頻生成模型完全公開發表,大多數為封閉源代碼。為彌補這一差距,本文提出了一個新的多智能體框架Mora,該框架整合了幾個先進的視覺人工智能智能體,以複製Sora展示的通用視頻生成能力。具體而言,Mora可以利用多個視覺智能體,成功模仿Sora在各種任務中的視頻生成能力,例如(1)文本到視頻生成,(2)文本條件下的圖像到視頻生成,(3)擴展生成的視頻,(4)視頻到視頻編輯,(5)連接視頻,以及(6)模擬數字世界。我們廣泛的實驗結果顯示,Mora在各種任務中實現了接近Sora的性能。然而,從整體上評估時,我們的工作與Sora之間存在明顯的性能差距。總之,我們希望這個項目能夠通過協作人工智能智能體引導視頻生成的未來軌跡。
我們提出了一種新穎的演化算法應用,用於自動化強大基礎模型的創建。儘管模型合併已成為LLM開發的一種有前途的方法,因其具有成本效益,但目前仍依賴人類直覺和領域知識,限制了其潛力。在這裡,我們提出了一種演化方法,通過自動發現多樣開源模型的有效組合,克服了這一限制,利用它們的集體智慧,而無需大量額外的訓練數據或計算。我們的方法在參數空間和數據流空間中運作,允許進行超出單個模型權重的優化。這種方法甚至促進跨領域合併,生成具有數學推理能力的日本LLM等模型。令人驚訝的是,我們的日本數學LLM在各種既有的日本LLM基準測試中取得了最先進的性能,甚至超過了具有更多參數的模型,儘管並未明確為此類任務進行訓練。此外,通過我們的方法生成的具有文化意識的日本VLM展示了其在描述日本文化特定內容方面的有效性,優於先前的日本VLM。這項工作不僅將最新的模型貢獻給開源社區,還引入了一種新的自動化模型組合範式,為探索基礎模型開發的替代高效方法鋪平了道路。
我們介紹了 SceneScript,這是一種直接以自回歸、基於標記的方法產生完整場景模型的技術。我們提出的場景表示受到了近期在變壓器和LLM中取得的成功的啟發,與更傳統的方法有所不同,後者通常將場景描述為網格、體素網格、點雲或輻射場。我們的方法從編碼的視覺數據中直接推斷出一組結構化的語言命令,使用場景語言編碼器-解碼器架構。為了訓練 SceneScript,我們生成並釋放了一個大規模的合成數據集,名為 Aria Synthetic Environments,包含 10 萬個高質量的室內場景,其中包括逼真的、經地面真實標註的主觀場景漫遊渲染。我們的方法在建築佈局估計方面取得了最先進的結果,並在 3D 物體檢測方面取得了競爭力的結果。最後,我們探討了 SceneScript 的一個優勢,即通過對結構化語言進行簡單添加,能夠迅速適應新的命令,我們將其應用於粗略的 3D 物體部件重建等任務中。
將視覺模型的尺寸擴大已成為獲取更強大視覺表示的事實標準。在這項工作中,我們討論了更大的視覺模型不再必要的關鍵點。首先,我們展示了視覺尺度上的擴展(S^2)的威力,即通過運行在多個圖像尺度上的預訓練並凍結的較小視覺模型(例如,ViT-B或ViT-L),可以在分類、分割、深度估計、多模式LLM(MLLM)基準以及機器人操作等方面勝過較大的模型(例如,ViT-H或ViT-G)。值得注意的是,S^2在V*基準的MLLM詳細理解方面實現了最先進的性能,超越了GPT-4V等模型。我們檢驗了在何種條件下S^2是比模型尺寸擴大更受青睞的擴展方法。雖然較大的模型在處理困難示例時具有更好的泛化能力,但我們展示了較大視覺模型的特徵可以很好地由多尺度較小模型的特徵近似。這表明,目前大型預訓練模型學習的大部分,如果不是全部,表示也可以從多尺度較小模型中獲得。我們的結果顯示,多尺度較小模型具有與較大模型相當的學習能力,並且使用S^2預訓練較小模型可以達到或甚至超越較大模型的優勢。我們釋出了一個Python套件,可以通過一行程式碼在任何視覺模型上應用S^2:https://github.com/bfshi/scaling_on_scales。
利用穩定擴散技術生成個性化肖像已成為一種強大且值得注意的工具,使用戶能夠根據特定提示創建高保真度的自定義角色頭像。然而,現有的個性化方法面臨著挑戰,包括測試時間微調、需要多個輸入圖像、身份保存率低以及生成結果的多樣性有限。為了克服這些挑戰,我們引入了IDAdapter,這是一種無需調整的方法,可從單張面部圖像中增強個性化圖像生成中的多樣性和身份保存率。IDAdapter通過文本和視覺注入以及面部身份損失的結合將個性化概念融入生成過程中。在訓練階段,我們從特定身份的多個參考圖像中綜合特徵,以豐富與身份相關的內容細節,引導模型生成比以往更具多樣風格、表情和角度的圖像。廣泛的評估證明了我們方法的有效性,在生成的圖像中實現了多樣性和身份保真度。
獎勵模型(RMs)是成功的強化學習人類友好(RLHF)的關鍵所在,以調整預訓練模型以符合人類偏好,然而對於這些獎勵模型的評估相對較少被研究。評估獎勵模型提供了一個機會,可以了解用於調整語言模型的不透明技術,以及其中蘊含的價值觀。迄今為止,幾乎沒有能描述能力、訓練方法或開源獎勵模型的描述存在。在本文中,我們提出了RewardBench,這是一個用於評估的基準數據集和代碼庫,以增進對獎勵模型的科學理解。RewardBench數據集是一個包含聊天、推理和安全性的提示-贏-輸三元組的集合,用於評估獎勵模型在具有挑戰性、結構化和超出分佈範圍的查詢上的表現。我們為具有微妙但可驗證原因(例如錯誤事實)的RMs創建了特定的比較數據集,以說明為何應該優先選擇一個答案。在RewardBench排行榜上,我們評估了使用各種方法訓練的獎勵模型,例如直接MLE訓練分類器和直接偏好優化(DPO)的隱式獎勵建模,以及一系列數據集。我們提出了許多關於拒絕傾向、推理限制以及各種獎勵模型對於更好理解RLHF過程的指示遵循缺陷的發現。
最近的進展表明,擴展多模式大型語言模型(MLLMs)有效地提升了在下游多模式任務上的表現。主流的MLLM範式,例如LLaVA,通過靜態視覺-語言映射器將視覺特徵轉換為類似文本的標記,從而使靜態LLMs能夠通過視覺指導調整來理解視覺信息。儘管有潛力,但共享相同參數的靜態調整策略可能會限制在不同下游多模式任務中的表現。鑑於此,我們引入了HyperLLaVA,其中包括對投影機和LLM參數進行自適應調整,分別搭配動態視覺專家和語言專家。這些專家來自於HyperNetworks,通過視覺和語言指導生成自適應參數變化,實現了在兩階段訓練中的動態投影機和LLM建模。 我們的實驗表明,我們的解決方案在現有的MLLM基準上明顯優於LLaVA,包括MME、MMBench、SEED-Bench和LLaVA-Bench。我們的項目可在以下鏈接找到:https://github.com/DCDmllm/HyperLLaVA。
近期在視角合成和實時渲染方面取得了顯著的進展,以令人印象深刻的渲染速度實現了逼真的質量。儘管基於輻射場的方法在具有挑戰性的場景(如野外捕捉和大規模場景)中實現了最先進的質量,但它們通常受到與體積渲染相關的過高計算需求的困擾。另一方面,基於高斯飛濺的方法依賴光柵化,自然實現實時渲染,但在更具挑戰性的場景中表現不佳,因為其脆弱的優化啟發法。在這項工作中,我們提出了RadSplat,一種輕量級方法,用於強大的實時渲染複雜場景。我們的主要貢獻有三個。首先,我們使用輻射場作為優化基於點的場景表示的先驗和監督信號,從而提高質量並實現更強大的優化。接下來,我們開發了一種新的修剪技術,減少整體點數,同時保持高質量,從而產生更小、更緊湊的場景表示,並實現更快的推理速度。最後,我們提出了一種新的測試時間過濾方法,進一步加速渲染,並實現對更大、房屋大小場景的擴展。我們發現我們的方法實現了在900+ FPS時的複雜捕捉的最先進合成。
擴散模型長期以來一直受到可擴展性和二次複雜性問題的困擾,特別是在基於Transformer的結構中。在這項研究中,我們旨在利用名為Mamba的狀態空間模型的長序列建模能力,將其應用擴展到視覺數據生成。首先,我們確定了大多數當前基於Mamba的視覺方法存在的一個關鍵疏忽,即在Mamba的掃描方案中缺乏對空間連續性的考慮。其次,基於這一洞察,我們引入了一種名為Zigzag Mamba的簡單、即插即用、零參數方法,優於基於Mamba的基準線,並且與基於Transformer的基準線相比,表現出更好的速度和記憶體利用率。最後,我們將Zigzag Mamba與隨機插值框架相結合,以研究模型在大分辨率視覺數據集(例如FacesHQ 1024x1024和UCF101、MultiModal-CelebA-HQ以及MS COCO 256x256)上的可擴展性。代碼將在https://taohu.me/zigma/上發布。
單目深度估計對於眾多下游視覺任務和應用至關重要。目前針對此問題的判別式方法存在模糊的瑕疵,而最先進的生成方法因其隨機微分方程(SDE)的特性而導致採樣速度緩慢。我們不是從噪聲開始,而是尋求從輸入圖像到深度圖之間的直接映射。我們觀察到,這可以有效地使用流匹配來構建,因為其在解空間中的直線軌跡提供了效率和高質量。我們的研究表明,預先訓練的圖像擴散模型可以作為流匹配深度模型的適當先驗,使得僅在合成數據上進行高效訓練就能推廣到真實圖像。我們發現輔助表面法線損失進一步改善了深度估計。由於我們方法的生成性質,我們的模型可可靠地預測其深度估計的置信度。在複雜自然場景的標準基準測試中,我們的輕量級方法表現出具有最先進性能的特點,儘管僅在少量合成數據上進行訓練,但計算成本低廉。
我們提出了一個生成模型,根據一張粗糙編輯的圖像,合成一個遵循指定佈局的照片逼真的輸出。我們的方法從原始圖像轉移細節,保留其部分特徵,同時適應新佈局定義的照明和背景。我們的關鍵洞察是視頻是這個任務的一個強大監督來源:物體和相機運動提供了許多觀察,展示了世界如何隨著視角、照明和物理交互而變化。我們構建了一個圖像數據集,其中每個樣本是從同一視頻中隨機選擇的時間間隔提取的源幀和目標幀對。我們使用兩個模擬預期的測試時間用戶編輯的運動模型將源幀向目標幀進行變形。我們監督我們的模型將變形圖像轉換為地面真相,從預先訓練的擴散模型開始。我們的模型設計明確地實現了從源幀到生成圖像的細節轉移,同時緊密遵循用戶指定的佈局。我們展示通過使用簡單的分割和粗糙的2D操作,我們可以合成一個忠於用戶輸入的逼真編輯,同時解決諸如協調照明和編輯對象之間的物理交互等二階效應。
大型語言模型(LLMs)存在一個令人驚訝的失敗:當在“A 具有特徵 B”上進行訓練時,它們無法推廣到“B 是 A 的特徵”,這被稱為逆轉詛咒。即使通過數萬億標記進行訓練,由於 Zipf 定律的存在,這個問題仍然存在 - 即使我們在整個互聯網上進行訓練也是如此。本研究提出了一種替代訓練方案,稱為反向訓練,其中所有單詞都被使用兩次,從而使可用標記數量加倍。LLM 通過反轉訓練字符串的方式在正向和反向方向上進行訓練,同時保留(即不反轉)選定的子字符串,如實體。我們展示了與數據匹配的反向訓練模型在標準任務上提供了優異的性能,而與計算匹配的反向訓練模型在逆轉任務上提供了遠遠優於標準模型的性能,有助於解決逆轉詛咒問題。
視訊外補是一項具有挑戰性的任務,旨在在保持幀間和幀內一致性的同時,在輸入視訊的視口之外生成視訊內容。現有方法在生成質量或靈活性方面存在不足。我們介紹了MOTIA(MOTIA Mastering Video Outpainting Through Input-Specific Adaptation),這是一種基於擴散的流程,利用源視訊的內在數據特定模式和圖像/視訊生成先驗進行有效的外補。MOTIA包括兩個主要階段:特定於輸入的適應和模式感知外補。特定於輸入的適應階段涉及對單次拍攝源視訊進行高效且有效的偽外補學習。此過程鼓勵模型識別並學習源視訊中的模式,並彌合標準生成過程和外補之間的差距。隨後的模式感知外補階段致力於將這些學習到的模式泛化以生成外補結果。提出了包括空間感知插入和噪聲傳播在內的額外策略,以更好地利用擴散模型的生成先驗和從源視訊獲得的視訊模式。廣泛的評估突顯了MOTIA的優越性,在廣泛認可的基準測試中優於現有的最先進方法。值得注意的是,這些進步是在不需要大量特定任務調整的情況下實現的。
儘管在文本到視頻(T2V)合成領域取得了巨大進展,開源的T2V擴散模型在生成具有動態變化和演變內容的較長視頻方面仍然存在困難。它們往往合成幾乎靜態的視頻,忽略了文本提示中所隱含的必要的隨時間變化的視覺變化。同時,將這些模型擴展以實現更長、更動態的視頻合成往往在計算上難以實現。為應對這一挑戰,我們引入了生成時序護理(GTN)的概念,旨在在推理過程中即時改變生成過程,以提高對時序動態的控制,並實現生成更長視頻的目標。我們提出了一種名為VSTAR的GTN方法,包括兩個關鍵要素:1)視頻摘要提示(VSP)- 基於原始單個提示利用LLM自動生成視頻摘要,為更長視頻的不同視覺狀態提供準確的文本指導;2)時間注意力正則化(TAR)- 一種正則化技術,用於改進預訓練的T2V擴散模型的時間注意力單元,實現對視頻動態的控制。我們在實驗中展示了所提方法在生成比現有開源的T2V模型更長、視覺上更吸引人的視頻方面的優越性。此外,我們分析了應用和未應用VSTAR時實現的時間注意力地圖,展示了應用我們的方法以減輕對所需視覺隨時間變化的忽視的重要性。
語言模型(LMs)已在各個領域產生了深遠影響。然而,它們在理解3D分子結構方面的固有限制顯著地限制了它們在生物分子領域的潛力。為了彌補這一差距,我們專注於3D分子-文本解釋,並提出3D-MoLM:3D分子語言建模。具體而言,3D-MoLM通過為LM配備3D分子編碼器,使LM能夠解釋和分析3D分子。這種整合是通過3D分子-文本投影器實現的,橋接了3D分子編碼器的表示空間和LM的輸入空間。此外,為了增強3D-MoLM對跨模態分子理解和指導遵循的能力,我們精心策劃了一個以3D分子為中心的指導調整數據集--3D-MoIT。通過3D分子-文本對齊和3D分子中心指導調整,3D-MoLM建立了3D分子編碼器和LM的整合。它在下游任務上顯著超越了現有基準,包括分子-文本檢索、分子字幕生成,以及更具挑戰性的開放文本分子問答任務,特別專注於3D相關特性。
3D生成技術已經取得了顯著的進展,然而從單張圖像高效地生成高質量的3D資產仍然具有挑戰性。在本文中,我們提出了一種三面體自編碼器,將3D模型編碼為一個緊湊的三面體潛在空間,以有效地壓縮3D幾何和紋理信息。在自編碼器框架內,我們引入了一個3D感知交叉注意機制,該機制利用低分辨率的潛在表示來從高分辨率的3D特徵體積中查詢特徵,從而增強了潛在空間的表示能力。隨後,我們在這個精煉的潛在空間上訓練擴散模型。與僅依賴圖像嵌入進行3D生成相比,我們提出的方法主張同時利用圖像嵌入和形狀嵌入作為條件。具體來說,形狀嵌入是通過一個以圖像嵌入為條件的擴散先驗模型來估計的。通過全面的實驗,我們展示了我們的方法優於最先進的算法,在需要更少的訓練數據和時間的情況下實現了卓越的性能。我們的方法使得僅需7秒便能在單個A100 GPU上生成高質量的3D資產。
為了了解一個新的人工智慧系統可能帶來的風險,我們必須了解它的能力和限制。在先前的工作基礎上,我們引入了一個新的「危險能力」評估計劃,並在 Gemini 1.0 模型上進行試點。我們的評估涵蓋四個領域:(1) 說服和欺騙;(2) 網絡安全;(3) 自我擴散;以及 (4) 自我推理。我們並未在評估的模型中發現強烈的危險能力證據,但我們標記了早期警示信號。我們的目標是推動一個嚴謹的危險能力評估科學,為未來的模型做好準備。