每日精選AI研究論文及翻譯
本文探討可能增強大型語言模型(LLMs)數學推理能力的潛在因素。我們認為現代LLMs中數學推理能力的數據擴展法則遠未達飽和,突顯模型質量隨著數據量增加而提高的情況。為了支持這一觀點,我們介紹了Skywork-Math模型系列,通過使用我們提出的250萬實例Skywork-MathQA數據集對常見的7B LLMs進行監督微調(SFT)。Skywork-Math 7B在比賽級MATH基準測試中取得了51.2%的令人印象深刻的準確率,並且在GSM8K基準測試中達到了83.9%的準確率,僅使用SFT數據,勝過了MATH中的GPT-4早期版本。Skywork-Math模型的卓越性能歸因於我們新穎的兩階段數據合成和模型SFT管道,其中包括三種不同的擴增方法和多樣的種子問題集,確保Skywork-MathQA數據集在不同難度水平上的數量和質量。最重要的是,我們提供了一些實用的經驗教訓,以增強LLMs的數學推理能力,適用於研究和行業應用。
我們在建立基礎視頻擴散模型方面取得了重大進展。由於這些模型是使用大規模非監督數據進行訓練的,因此將這些模型適應特定下游任務變得至關重要。通過監督微調來適應這些模型需要收集視頻目標數據集,這是具有挑戰性和繁瑣的。在這項工作中,我們利用通過偏好學習的預訓練獎勵模型,應用於強大的視覺判別模型之上,以適應視頻擴散模型。這些模型包含相對於生成的 RGB 像素的密集梯度信息,這對於在複雜的搜索空間(例如視頻)中進行高效學習至關重要。我們展示了從這些獎勵模型反向傳播梯度到視頻擴散模型可以實現計算和採樣高效對齊的結果。我們展示了在各種獎勵模型和視頻擴散模型上的結果,證明我們的方法在獎勵查詢和計算方面比先前無梯度方法學習得更有效。我們的代碼、模型權重和更多可視化內容可在 https://vader-vid.github.io 上找到。
儘管目前大多數大型多模型模型(LMMs)已能理解自然場景和肖像的照片,但它們對抽象圖像(例如圖表、地圖或版面)和視覺推理能力的理解仍然非常基本。它們常常在一些簡單的日常任務中遇到困難,例如從時鐘上讀取時間、理解流程圖或使用道路地圖規劃路線。鑒於此,我們設計了一種多模自指示方法,利用大型語言模型及其代碼能力來合成各種日常情境中的大量抽象圖像和視覺推理指示。我們的策略輕鬆地創建了一個多模基準,包含了8個視覺情境的11,193個指示:圖表、表格、模擬地圖、儀表板、流程圖、關係圖、平面圖和視覺拼圖。這個基準由簡單的線條和幾何元素構建,揭示了像Claude-3.5-Sonnet和GPT-4o這樣的大多數先進LMMs在抽象圖像理解、空間關係推理和視覺元素歸納方面的不足之處。此外,為驗證我們合成數據的質量,我們使用了62,476個合成圖表、表格和道路地圖指示來對一個LMM進行微調。結果表明,圖表理解和地圖導航性能有所改善,同時也展示了對其他視覺推理任務的潛在益處。我們的代碼可在以下鏈接找到:https://github.com/zwq2018/Multi-modal-Self-instruct。
多模式大型語言模型(MLLMs)最近在學術界和工業界備受關注。儘管它們在一般多模式情境中表現出色,但在視覺情境中的數學問題解決能力尚未得到充分探索。我們確定了MLLMs中需要改進的三個關鍵領域:數學圖表的視覺編碼、圖表-語言對齊以及數學推理能力。這引出了對視覺數學中大規模、高質量數據和訓練管道的迫切需求。在本文中,我們提出了MAVIS,這是第一個針對MLLMs的數學視覺指導調整範式,涉及一系列數學視覺數據集和專門的MLLMs。針對這三個問題,MAVIS包含三個從頭開始的逐步訓練階段。首先,我們精心挑選了MAVIS-Caption,其中包含558K個圖表-標題對,通過對比學習來微調一個針對改進圖表視覺編碼的數學特定視覺編碼器(CLIP-Math)。其次,我們利用MAVIS-Caption將CLIP-Math與大型語言模型(LLM)通過一個投影層對齊,增強數學領域中的視覺-語言對齊。第三,我們引入了MAVIS-Instruct,其中包括精心收集和標註的90萬個視覺數學問題,用於最終指導調整MLLM以提高穩健的數學推理能力。在MAVIS-Instruct中,我們為每個問題納入完整的思維鏈(CoT)理由,並最小化文本冗余,從而使模型專注於視覺元素。數據和模型可在https://github.com/ZrrSkywalker/MAVIS 上獲得。
訓練大型語言模型(LLMs)需要大量記憶體,因為其龐大的參數量和相關的優化狀態。最近的一種方法 GaLore 通過將權重梯度投影到低秩子空間來減少記憶體使用,而不影響性能。然而,GaLore 依賴耗時的奇異值分解(SVD)操作來識別子空間,並且頻繁的子空間更新導致顯著的訓練時間開銷。此外,與更易於進行微調的情況下的 LoRA 相比,GaLore 在準確性和效率方面提供的改進很少。為了解決這些限制,我們提出了一種新方法 Q-Galore,通過結合量化和低秩投影,大幅減少記憶體使用,超越了 GaLore 的好處。我們的方法基於兩個關鍵觀察:(i)梯度子空間表現出多樣性特性,一些層在訓練早期收斂,而其他層則經常變化;(ii)投影矩陣對低位量化非常強韌。利用這些見解,Q-GaLore 根據其收斂統計量自適應地更新梯度子空間,實現可比性能,同時顯著減少 SVD 操作的次數。我們將投影矩陣保持在 INT4 格式,權重保持在 INT8 格式,並引入隨機捨入以捕捉累積的梯度信息。這種方法使得僅使用低精度權重即可實現高精度的訓練軌跡。我們展示了 Q-GaLore 實現了高度競爭性的性能,並具有卓越的記憶體效率。在預訓練階段,Q-GaLore 使得在單個 NVIDIA RTX 4060 Ti 上僅使用 16 GB 記憶體即可從頭開始訓練一個 LLaMA-7B 模型變得更加容易。在微調階段,與 LoRA 和 GaLore 相比,它將記憶體消耗降低了多達 50%,同時在相同的記憶體成本下始終優於 QLoRA。
我們提出了一種新穎的混合 Mamba-Transformer 骨幹,命名為 MambaVision,專門為視覺應用而設計。我們的核心貢獻包括重新設計 Mamba 公式,以增強其對視覺特徵進行高效建模的能力。此外,我們對將 Vision Transformers(ViT)與 Mamba 整合的可行性進行了全面的消融研究。我們的結果表明,在最終層裝備 Mamba 架構與多個自注意力塊顯著改善了建模能力,以捕捉長距離空間依賴性。基於我們的研究結果,我們引入了一系列 MambaVision 模型,具有分層架構,以滿足各種設計標準。對於在 ImageNet-1K 數據集上的圖像分類任務,MambaVision 模型變體在 Top-1 準確度和圖像吞吐量方面實現了新的最先進性能。在 MS COCO 和 ADE20K 數據集上的對象檢測、實例分割和語義分割等下游任務中,MambaVision 優於相同大小的骨幹,並展現出更有利的性能。程式碼:https://github.com/NVlabs/MambaVision。
越來越多的應用程式依賴於一小組封閉源語言模型(LMs)。如果LMs發展出自我識別能力,這種依賴可能引入新的安全風險。受人類身份驗證方法的啟發,我們提出了一種評估LMs自我識別的新方法,使用模型生成的「安全問題」。我們的測試可以由外部進行管理,以追蹤前沿模型,因為它不需要訪問內部模型參數或輸出概率。我們使用這個測試來檢驗目前公開可用的十個最具能力的開源和封閉源LMs中的自我識別。我們的廣泛實驗沒有找到任何被檢驗LM中的一般或一致的自我識別的實證證據。相反,我們的結果表明,在給定一組替代方案時,LMs會傾向選擇「最佳」答案,而不考慮其來源。此外,我們發現跨LMs的有關哪些模型產生最佳答案的偏好是一致的跡象。我們還在多選擇情境中揭示了有關LMs的位置偏見考量的新見解。
隨著圖像生成和開放式文本生成的顯著進展,創建交錯的圖像-文本內容已成為一個越來越引人入勝的領域。多模態故事生成以交錯方式產生敘事文本和生動圖像為特徵,已成為一項具有廣泛應用價值和實用性的任務。然而,這項任務帶來了重大挑戰,因為它需要理解文本和圖像之間的複雜相互作用,以及生成一系列連貫、情境相關的文本和視覺元素。在這項工作中,我們提出了SEED-Story,一種利用多模態大型語言模型(MLLM)生成擴展多模態故事的新方法。我們的模型基於MLLM強大的理解能力,預測文本標記和視覺標記,隨後使用適應的視覺去標記器處理這些標記,以生成具有一致角色和風格的圖像。我們進一步提出多模態注意力沉澱機制,以實現以高效的自回歸方式生成長達25個序列(僅用於訓練的10個)的故事。此外,我們提出了一個名為StoryStream的大規模高分辨率數據集,用於訓練我們的模型並在各個方面對多模態故事生成任務進行定量評估。
卓越的數學推理能力是展示大型語言模型(LLMs)威力的關鍵特徵之一。如何全面定義和評估LLMs的數學能力,甚至反映在現實場景中的用戶體驗,已成為一個關鍵問題。目前的基準主要集中在解決問題的能力上,這帶來了模型過度擬合的風險,並未能準確地代表真正的數學推理能力。在本文中,我們認為如果一個模型真正理解了一個問題,它應該能夠堅固而迅速地應用於各種任務。受此啟發,我們引入了MATHCHECK,這是一個為測試任務泛化和推理韌性而設計的清單,以及一個能夠高效生成檢查清單的自動工具。MATHCHECK包括多個數學推理任務和韌性測試類型,以促進對數學推理能力和行為測試的全面評估。利用MATHCHECK,我們開發了MATHCHECK-GSM和MATHCHECK-GEO,分別用於評估數學文本推理和多模態推理能力,作為GSM8k、GeoQA、UniGeo和Geometry3K等基準的升級版本。我們採用MATHCHECK-GSM和MATHCHECK-GEO來評估超過20個LLMs和11個MLLMs,評估它們的全面數學推理能力。我們的結果顯示,儘管像GPT-4o這樣的前沿LLMs在檢查清單上繼續擅長各種能力,但許多其他模型家族表現出顯著下降。進一步的實驗表明,與傳統數學基準相比,MATHCHECK更好地反映了真正的數學能力,並更線性地代表了數學智能,從而支持我們的設計。在我們的MATHCHECK上,我們可以輕鬆進行詳細的行為分析,以深入研究模型。
現有的多模式大型語言模型(MLLMs)越來越強調對各種視覺元素的複雜理解,包括多個物體、文本信息和空間關係。它們對於全面視覺感知的發展取決於提供多樣化視覺元素和完整圖像描述的高質量圖像-文本數據集。然而,目前這種超詳細數據集的稀缺性阻礙了MLLM社區內的進展。瓶頸來自當前標題引擎有限的感知能力,無法提供完整準確的標註。為了促進MLLM在全面視覺感知方面的尖端研究,我們因此提出感知融合,使用低成本但高效的標題引擎進行完整準確的圖像描述。具體來說,感知融合將多樣的感知專家作為圖像先驗,提供對視覺元素的明確信息,並採用高效的MLLM作為中心支點,模擬先進MLLM的感知能力。我們從未經篩選的LAION數據集中精心選擇100萬張高度代表性圖像,並使用我們的引擎生成密集描述,稱為DenseFusion-1M。廣泛的實驗驗證了我們的引擎優於其對手,生成的數據集顯著提高了現有MLLM在各種視覺-語言基準測試中的感知和認知能力,特別是對高分辨率圖像的輸入。數據集和代碼可在https://github.com/baaivision/DenseFusion 公開獲得。
在發展通用代理程式時,將大型語言模型(LLMs)與各種工具整合已受到重視。這對LLMs的工具使用能力構成挑戰。然而,現有的工具使用評估與真實世界情境之間存在明顯差距。目前的評估通常使用由人工智慧生成的查詢、單步任務、虛擬工具和僅限文本互動,未能有效揭示代理程式在真實世界解決問題的能力。為了解決這個問題,我們提出了GTA,一個通用工具代理程式的基準測試,包括三個主要方面:(i)真實用戶查詢:由人類撰寫的查詢,具有簡單的真實世界目標但隱含工具使用,需要LLM推理出適當的工具並規劃解決步驟。(ii)實際部署的工具:一個配備感知、操作、邏輯和創造力等類別工具的評估平台,用於評估代理程式實際任務執行表現。(iii)真實多模態輸入:包括空間場景、網頁截圖、表格、程式碼片段和印刷/手寫材料等真實圖像文件,作為查詢上下文以與真實世界情境緊密對齊。我們設計了229個真實世界任務和可執行的工具鏈,用於評估主流LLMs。我們的研究結果顯示,現有LLMs在真實世界用戶查詢方面具有挑戰性,其中GPT-4完成不到50%的任務,大多數LLMs的完成率低於25%。這種評估揭示了目前LLMs在真實世界情境中工具使用能力的瓶頸,為推進通用工具代理程式提供了未來方向。程式碼和數據集可在https://github.com/open-compass/GTA找到。
我們提出了MELLE,一種基於新穎連續值標記的語言建模方法,用於文本轉語音合成(TTS)。MELLE從文本條件中自回歸生成連續的mel-頻譜圖幀,避免了對向量量化的需求,後者最初是為音頻壓縮而設計的,與mel-頻譜圖相比牺牲了保真度。具體來說,(i)我們應用回歸損失而非交叉熵損失,並使用提出的頻譜通量損失函數來建模連續值標記的概率分佈。(ii)我們將變分推理融入MELLE中,以促進採樣機制,從而增強輸出的多樣性和模型的韌性。實驗表明,與兩階段編解碼器語言模型VALL-E及其變體相比,單階段的MELLE通過避免採樣離散代碼的固有缺陷來緩解韌性問題,在多個指標上實現了卓越性能,最重要的是提供了更加流暢的範式。請參見https://aka.ms/melle 以查看我們工作的演示。
近年來,大型語言模型(LLMs)的快速發展已受到關注。基於強大的LLMs,多模態語言模型(MLLMs)將模態從文本擴展到更廣泛的領域,由於應用場景的擴大,吸引了廣泛關注。由於LLMs和MLLMs依賴大量的模型參數和數據來實現新興能力,數據的重要性正受到日益廣泛的關注和認可。追蹤並分析最近針對MLLMs的數據導向作品,我們發現模型和數據的發展並非兩條獨立的路徑,而是相互關聯的。一方面,更廣泛和高質量的數據有助於提升MLLMs的性能,另一方面,MLLMs可以促進數據的發展。多模態數據和MLLMs的共同發展需要清晰地了解:1)在MLLMs的哪個發展階段可以採用特定的數據導向方法以增強哪些能力,以及2)通過利用哪些能力並扮演哪些角色,模型可以為多模態數據做出貢獻。為了促進MLLM社區的數據-模型共同發展,我們從數據-模型共同發展的角度系統地回顧了與MLLMs相關的現有作品。與此調查相關的定期維護的項目可在https://github.com/modelscope/data-juicer/blob/main/docs/awesome_llm_data.md 上訪問。
神經網絡(NN)在各種任務中取得了顯著的成果,但缺乏關鍵特徵:可解釋性、支援分類特徵以及適用於邊緣設備的輕量級實現。儘管持續努力解決這些挑戰,梯度提升樹(GBT)本質上滿足了這些要求。因此,GBT已成為許多實際應用和競賽中監督式學習任務的首選方法。然而,在線學習場景中,特別是在強化學習(RL)中,它們的應用受到了限制。在這項工作中,我們通過引入梯度提升強化學習(GBRL)機制來彌合這一差距,該框架將GBT的優勢擴展到RL領域。利用GBRL框架,我們實現了各種演員-評論家算法,並將其性能與其NN對應物進行了比較。受到NN中共享主幹的啟發,我們引入了一種用於策略和價值函數的樹共享方法,具有不同的學習速率,從而提高了在數百萬次交互作用中的學習效率。GBRL在各種任務中實現了競爭性能,尤其擅長處理具有結構化或分類特徵的領域。此外,我們提供了一個高性能的、支持GPU加速的實現,與廣泛使用的RL庫無縫集成(可在https://github.com/NVlabs/gbrl 上找到)。GBRL擴展了RL從業者的工具包,展示了GBT在RL範式中的可行性和潛力,特別是在具有結構化或分類特徵的領域。
大型語言模型在生成流式數據(如文本和音頻)方面表現出卓越的效能,這要歸功於它們的時間上單向注意機制,該機制模擬了當前標記與先前標記之間的相關性。然而,儘管對於即時視頻處理的需求不斷增長,視頻流仍然遠未被充分探索。當前的視頻擴散模型利用雙向時間注意力來模擬當前幀與所有周圍幀(包括未來幀)之間的相關性,這使它們無法處理流式視頻。為解決這一問題,我們提出了Live2Diff,這是設計具有時間上單向注意力的視頻擴散模型的首次嘗試,專門針對即時流式視頻翻譯。與先前的研究相比,我們的方法通過將當前幀與其前幾個先行幀以及一些初始的預熱幀相關聯,而不涉及任何未來幀,確保了時間一致性和平滑性。此外,我們使用了一種高效的去噪方案,其中包括KV-緩存機制和流水線處理,以實現互動幀速率下的流式視頻翻譯。大量實驗證明了所提出的注意機制和流程的有效性,優於先前方法在時間平滑性和/或效率方面的表現。
在基於流的影片幀插補(VFI)中,運動建模至關重要。現有範式要麼考慮雙向流的線性組合,要麼直接預測給定時間戳的雙向流,而沒有探索有利的運動先驗,因此缺乏有效建模現實世界影片中時空動態的能力。為了解決這一限制,在本研究中,我們引入了通用隱式運動建模(GIMM),這是一種針對VFI的運動建模的新穎有效方法。具體來說,為了將GIMM作為一種有效的運動建模範式,我們設計了一個運動編碼管道,用於建模從預先訓練的流估計器中提取的雙向流中的時空運動潛在性,有效地表示特定於輸入的運動先驗。然後,我們通過一個自適應基於坐標的神經網絡,使用時空坐標和運動潛在作為輸入,隱式預測兩個相鄰輸入幀之間的任意時間步長的光流。我們的GIMM可以與現有基於流的VFI工作平滑集成,無需進行進一步修改。我們展示了GIMM在VFI基準測試中優於當前技術水平。
從上至下的鳥瞰(BEV)地圖是地面機器人導航中常見的表示形式,因其豐富性和對下游任務的靈活性而受到歡迎。儘管最近的方法已顯示出從性能,可以從第一人稱視角(FPV)圖像預測BEV地圖,但其泛化能力僅限於當前自動駕駛車輛數據集捕獲的小區域。在這種情況下,我們展示了一種更具規模的通用地圖預測方法,可通過使用兩個大規模眾包地圖平台實現,即Mapillary用於FPV圖像和OpenStreetMap用於BEV語義地圖。我們引入了Map It Anywhere(MIA),這是一個數據引擎,可實現對現有開源地圖平台的標記地圖預測數據的無縫策劃和建模。使用我們的MIA數據引擎,我們展示了自動收集一個包含各種地理、景觀、環境因素、相機型號和拍攝情景的120萬對FPV圖像和BEV地圖數據集的便利性。我們進一步在這些數據上訓練了一個簡單的與相機型號無關的模型,用於BEV地圖預測。使用確立的基準和我們的數據集進行廣泛評估,顯示了由MIA策劃的數據可實現有效的泛化BEV地圖預測的預訓練,其零槍擊性能遠超過基於現有數據集訓練的基準35%。我們的分析突顯了使用大規模公共地圖來開發和測試通用BEV感知的潛力,為更強大的自主導航鋪平了道路。
在這篇觀點論文中,我們介紹了專業通才人工智慧(SGAI或簡稱SGI)的概念,作為達到人工通用智能(AGI)的重要里程碑。與直接擴展通用能力相比,SGI被定義為在至少一項任務上專精,超越人類專家,同時保留通用能力。這種融合路徑使SGI能夠迅速實現高價值領域。我們根據對專業技能掌握程度和通用性表現水平的分類,將SGI分為三個階段。此外,我們討論了SGI在應對與大型語言模型相關問題方面的必要性,例如它們的通用性不足、專業能力、創新的不確定性和實際應用。此外,我們提出了一個發展SGI的概念框架,該框架整合了系統1和系統2認知處理的優勢。該框架包括三個層次和四個關鍵組件,著重於增強個人能力並促進協作演進。最後,我們總結了潛在挑戰並提出未來方向的建議。我們希望所提出的SGI將為實現AGI的進一步研究和應用提供見解。
儘管在3D場景重建領域中,由於其逼真的質量,NeRFs佔主導地位,但最近出現了3D高斯飛灑(3DGS),提供了與實時渲染速度相近的相似質量。然而,這兩種方法主要在控制良好的3D場景中表現出色,而在野外數據——以遮蔽、動態物體和不同照明為特徵——仍然具有挑戰性。NeRFs可以通過每幅圖像的嵌入向量輕鬆適應這些條件,但3DGS由於其明確表示和缺乏共享參數而遇到困難。為了解決這個問題,我們引入了WildGaussians,一種處理3DGS中遮蔽和外觀變化的新方法。通過利用強大的DINO特徵並在3DGS內部集成外觀建模模塊,我們的方法實現了最先進的結果。我們展示了WildGaussians與3DGS的實時渲染速度相匹配,同時在處理野外數據方面超越了3DGS和NeRF的基準線,所有這些都在一個簡單的架構框架內實現。
我們提出了 OmniNOCS,這是一個大規模的單眼資料集,具有 3D 正規化物體座標空間 (NOCS) 地圖、物體遮罩和室內外場景的 3D 邊界框標註。OmniNOCS 擁有比現有的 NOCS 資料集 (NOCS-Real275、Wild6D) 更多 20 倍的物體類別和 200 倍的實例。我們使用 OmniNOCS 來訓練一個新穎的基於變壓器的單眼 NOCS 預測模型 (NOCSformer),該模型可以從跨不同類別的 2D 物體檢測中預測準確的 NOCS、實例遮罩和姿勢。這是第一個能夠在提示 2D 邊界框時泛化到廣泛類別的 NOCS 模型。我們在 3D 定向邊界框預測任務上評估我們的模型,其實現了與 Cube R-CNN 等最先進的 3D 檢測方法相當的結果。與其他 3D 檢測方法不同,我們的模型還提供了詳細和準確的 3D 物體形狀和分割。我們提出了一個基於 OmniNOCS 的 NOCS 預測任務的新穎基準,希望這將成為該領域未來工作的有用基準。我們的資料集和程式碼將在項目網站上提供:https://omninocs.github.io。
個性化圖像美學評估任務旨在根據少量用戶提供的輸入,定制美學分數預測模型以符合個人偏好。然而,目前方法的可擴展性和泛化能力受到其依賴昂貴的精心編輯數據庫的限制。為了克服這個長期存在的擴展性挑戰,我們提出了一種獨特的方法,利用現成的數據庫進行一般圖像美學評估和圖像質量評估。具體來說,我們將每個數據庫視為一個獨特的圖像分數回歸任務,展示了不同程度的個性化潛力。通過確定代表每個數據庫特定特徵的任勞任怨向量的最佳組合,我們成功地為個人創建了個性化模型。這種整合多個模型的方法使我們能夠利用大量數據。我們的大量實驗證明了我們的方法在泛化到以前未見領域方面的有效性,這是以前方法難以實現的挑戰,使其在實際情況下非常適用。我們的新方法通過為個性化美學評估提供可擴展解決方案並為未來研究建立高標準,顯著推動了該領域的發展。