每日精選AI研究論文及翻譯
我們提出了SlowFast-LLaVA(簡稱SF-LLaVA),這是一種無需訓練的視頻大型語言模型(LLM),能夠共同捕捉詳細的空間語義和長程時間上下文,同時不超出常用LLM的標記預算。這是通過使用兩流SlowFast設計的視頻LLM輸入來有效地聚合來自取樣視頻幀的特徵來實現的。具體而言,Slow 路徑以較低的幀率提取特徵,同時保留盡可能多的空間細節(例如,使用24x24標記),而Fast 路徑以較高的幀率運行,但使用較大的空間池化步幅(例如,下採樣6x)來專注於運動線索。因此,這種設計使我們能夠充分捕捉對於理解視頻中的細節有益的空間和時間特徵。實驗結果表明,SF-LLaVA在各種視頻任務上優於現有的無需訓練方法。在某些基準測試中,它實現了與在視頻數據集上微調的最先進視頻LLM相當甚至更好的性能。
目前,針對不同部署規模和大小的大型語言模型(LLMs)通常是通過從頭開始訓練每個變體來製作;這是非常消耗計算資源的。在本文中,我們研究了對現有的LLM進行修剪,然後使用原始訓練數據的一小部分(<3%)重新訓練是否可以作為重複完整重新訓練的合適替代方法。為此,我們開發了一套實用且有效的LLM壓縮最佳實踐,結合了深度、寬度、注意力和MLP修剪,以及基於知識蒸餾的重新訓練;通過對每個軸的修剪策略、軸的組合方法、蒸餾策略和搜索技術的詳細實證探索,我們得出了這些最佳實踐。我們使用這個指南將Nemotron-4系列的LLMs壓縮2-4倍,並將它們的性能與各種語言建模任務中大小相似的模型進行比較。使用我們的方法從已預訓練的15B模型中獲取8B和4B模型,相較於從頭開始訓練,每個模型所需的訓練標記減少了多達40倍;這導致訓練完整模型系列(15B、8B和4B)的計算成本節省了1.8倍。Minitron模型的MMLU分數比從頭開始訓練提高了多達16%,在性能上與其他社區模型(如Mistral 7B、Gemma 7B和Llama-3 8B)相當,並優於文獻中的最新壓縮技術。我們在Huggingface上開源了Minitron模型權重,並提供了相應的補充材料,包括在GitHub上提供的示例代碼。
目前頂尖基礎模型的巨大規模限制了科學家們的可及性,因為在大型模型上進行定制實驗需要昂貴的硬體和複雜的工程,這對大多數研究人員來說是不切實際的。為了解決這些問題,我們引入了 NNsight,這是一個開源的 Python 套件,具有簡單靈活的 API,可以通過構建計算圖對任何 PyTorch 模型進行干預。我們還推出了 NDIF,這是一個協作研究平台,通過 NNsight API 為研究人員提供訪問基礎規模 LLMs 的途徑。代碼、文檔和教程可在 https://www.nnsight.net 上找到。
瞭解大型語言模型(LLMs)中的知識機制對於邁向可信任的通用人工智能至關重要。本文從一個新穎的分類法回顧了知識機制分析,包括知識利用和演化。知識利用深入探討記憶、理解和應用、以及創造的機制。知識演化則專注於個別和群體LLMs內知識的動態進展。此外,我們討論LLMs所學習的知識、參數化知識脆弱性的原因,以及可能具有挑戰性的潛在暗知識(假設)。我們希望這項工作能幫助理解LLMs中的知識並為未來研究提供見解。
大型多模型(LMMs)在各個領域具有相當大的潛力,從日常任務中的個人助理到複雜應用,如醫學診斷。然而,它們在視頻遊戲領域的能力存在一些限制,例如在場景理解、幻覺和對視頻遊戲內容的不準確描述方面存在挑戰,尤其是在開源模型中。本文描述了VideoGameBunny的開發,這是一個基於Bunny的LLaVA風格模型,專門用於理解來自視頻遊戲的圖像。我們釋出了中間檢查點、訓練日誌,以及一個包含來自413款遊戲的185,259張視頻遊戲圖像和389,565個圖像指令對的廣泛數據集,其中包括圖像標題、問答對和136,974張圖像的16個元素的JSON表示。我們的實驗表明,我們高質量的遊戲相關數據有潛力使一個相對較小的模型勝過擁有超過4倍參數數量的最先進模型LLaVa-1.6-34b。我們的研究為未來在視頻遊戲理解方面的研究鋪平了道路,例如遊玩、評論和調試等任務。代碼和數據可在https://videogamebunny.github.io/上獲得。
最近,多智能體強化學習(MARL)在解決各種環境中具有挑戰性的合作和競爭性多智能體問題方面取得了卓越成就,這些環境主要包括少量智能體和完全可觀察性。此外,一系列重要的與機器人相關的任務,例如多機器人導航和障礙物避免,傳統上是通過經典的不可學習方法(例如,啟發式搜索)來處理,目前建議使用基於學習或混合方法來解決。然而,在這個領域中,由於缺乏支持學習和評估的統一框架,很難說不可能進行經典方法、基於學習的方法和混合方法之間的公平比較。為此,我們介紹了POGEMA,這是一套包括快速學習環境、問題實例生成器、預定義問題集、可視化工具包和允許自動評估的基準工具的綜合工具。我們介紹並明確了一套評估協議,該協議定義了一系列基於主要評估指標(例如成功率和路徑長度)計算的與領域相關的指標,從而實現公平的多重比較。我們呈現了這種比較的結果,其中涉及各種最先進的MARL、基於搜索的方法和混合方法。
大型多模型模型(LMMs)正在處理越來越長且更豐富的輸入。儘管取得了進展,但很少有公開基準可用於衡量這種發展。為彌補這一差距,我們引入了LongVideoBench,這是一個問答基準,具有長達一小時的視頻-語言交錯輸入。我們的基準包括3,763個不同長度的網絡收集視頻及其字幕,涵蓋各種主題,旨在全面評估LMMs對長期多模式理解的能力。為了實現這一目標,我們將主要挑戰定義為從長輸入中準確檢索和推理詳細的多模式信息。因此,我們制定了一個新的視頻問答任務,稱為指代推理。具體而言,在問題的一部分中,它包含一個引用查詢,引用相關的視頻上下文,稱為被引用上下文。然後,模型需要從被引用上下文中推理出相關的視頻細節。遵循指代推理的範式,我們精心策劃了6,678個人工標註的17個細粒度類別的多選問題,建立了一個最全面的長格式視頻理解基準之一。評估表明,即使對於最先進的專有模型(例如GPT-4o、Gemini-1.5-Pro、GPT-4-Turbo),LongVideoBench也提出了重大挑戰,而它們的開源對應模型表現出更大的性能差距。此外,我們的結果表明,模型在基準上的表現僅在它們能夠處理更多幀時才會提高,這將LongVideoBench定位為評估未來一代長上下文LMMs的寶貴基準。
人類反饋強化學習(RLHF)是當今最先進的大型語言模型中質量和安全的關鍵驅動因素。然而,在推論時,一種驚人簡單且強大的策略是最佳N採樣,它從N個候選中選擇最佳生成物。本文提出了最佳N蒸餾(BOND),這是一種新穎的RLHF算法,旨在模擬最佳N,但在推論時避免其重大的計算開銷。具體而言,BOND是一種分布匹配算法,強迫從策略生成的分布接近最佳N分布。我們使用Jeffreys散度(前向和後向KL的線性組合)來平衡模式覆蓋和模式尋找行為,並推導出一個利用移動錨點的迭代公式。通過在提取式摘要和Gemma模型上的實驗,我們展示了我們方法的有效性和幾個設計選擇。將Gemma策略與BOND對齊優於其他RLHF算法,通過改進幾個基準測試的結果。
儘管神經輻射場(Neural Radiance Fields,NeRFs)展示出卓越的品質,但其漫長的訓練時間仍然是一個限制。具有泛化能力並基於多視角結構(MVS)的 NeRFs,雖然能夠減少訓練時間,但通常會在品質上產生折衷。本文提出了一種名為 BoostMVSNeRFs 的新方法,以增強大型場景中基於 MVS 的 NeRFs 的渲染品質。我們首先確定了基於 MVS 的 NeRF 方法的限制,例如受限的視口覆蓋範圍和由於有限輸入視圖而產生的瑕疵。然後,我們通過提出一種新方法來解決這些限制,該方法在體積渲染期間選擇並組合多個成本體積。我們的方法不需要訓練,可以以前向傳播的方式適應任何基於 MVS 的 NeRF 方法以改善渲染品質。此外,我們的方法也是端到端可訓練的,可以對特定場景進行微調。我們通過在大型數據集上進行實驗展示了我們方法的有效性,顯示在大型場景和無限的戶外場景中顯著提高了渲染品質。我們在 https://su-terry.github.io/BoostMVSNeRFs/ 上公開了 BoostMVSNeRFs 的源代碼。
擴散模型在去噪過程中紡織內容和風格生成,直接應用於風格化任務時可能導致不希望的內容修改。現有方法難以有效控制擴散模型以滿足風格化的審美要求。本文介紹一種名為「Artist」的訓練免費方法,用於美學控制預訓練擴散模型的內容和風格生成,以進行以文本驅動的風格化。我們的關鍵見解是將內容和風格的去噪分為單獨的擴散過程,同時在它們之間共享信息。我們提出了簡單而有效的內容和風格控制方法,抑制與風格無關的內容生成,從而產生和諧的風格化結果。大量實驗表明,我們的方法在實現審美級風格化要求方面表現優異,保留了內容圖像中的細節並與風格提示相匹配。此外,我們展示了從各種角度高度可控的風格化強度。代碼將被釋出,項目主頁:https://DiffusionArtist.github.io
儘管流匹配(Flow Matching)和擴散模型已經成為連續變數(如圖像和視頻)的強大生成範式,但它們在高維離散數據(如語言)上的應用仍然有限。在這項研究中,我們提出了離散流匹配(Discrete Flow Matching),這是一種專門設計用於生成離散數據的新穎離散流範式。離散流匹配提供了幾個關鍵貢獻:(i) 它與一般的概率路徑家族一起工作,插值源分佈和目標分佈之間;(ii) 它允許使用學習的後驗概率(如概率去噪器(x-預測)和噪聲預測(epsilon-預測))從這些概率路徑中進行抽樣的通用公式;(iii) 實際上,專注於使用不同調度器定義的特定概率路徑,與先前的離散擴散和流模型相比,顯著改善了生成困惑度;(iv) 通過將離散流匹配模型擴展到17億參數,我們在HumanEval上達到了6.7% Pass@1和13.4% Pass@10,在1-shot MBPP編碼基準上達到了6.7% Pass@1和20.6% Pass@10。我們的方法能夠以非自回歸方式生成高質量的離散數據,顯著縮小了自回歸模型和離散流模型之間的差距。
在各個領域中,包括虛擬實境、遊戲和電影工業,3D場景生成需求日益增加。由於文本到圖像擴散模型具有強大的生成能力,提供可靠的先驗知識,僅使用文本提示便可以創建3D場景已經成為可能,從而顯著推動了以文本驅動的3D場景生成研究。為了從2D擴散模型獲得多視圖監督,目前的方法通常利用擴散模型生成初始局部圖像,然後通過逐步使用擴散模型對局部圖像進行外部繪製,逐漸生成場景。然而,這些基於外部繪製的方法容易產生全局不一致的場景生成結果,並且缺乏高度完整性,限制了它們的廣泛應用。為了應對這些問題,我們引入了HoloDreamer,這是一個框架,首先生成高清全景作為完整3D場景的初始值,然後利用3D高斯飛灑(3D-GS)快速重建3D場景,從而促進創建視圖一致且完全封閉的3D場景。具體而言,我們提出了風格化等距圓柱全景生成,這是一個流程,結合多個擴散模型,從複雜的文本提示中實現風格化和詳細的等距圓柱全景生成。隨後,引入了增強型兩階段全景重建,對3D-GS進行兩階段優化,對缺失區域進行修補,增強場景的完整性。全面的實驗表明,我們的方法在生成完全封閉場景時,在整體視覺一致性和和諧性、重建質量和渲染韌性方面優於先前的作品。
通用人工智慧(AI)系統建立在大量的公共網絡數據之上,這些數據被組織成語料庫,如C4、RefinedWeb和Dolma。據我們所知,我們進行了首次大規模的長期審計,審查支撐AI訓練語料庫的網絡域的同意協議。我們對14,000個網絡域進行了審計,提供了對可爬取網絡數據以及其使用同意偏好隨時間變化的廣泛視角。我們觀察到AI專用條款的激增以限制使用,AI開發者之間的限制存在明顯差異,以及網站在其服務條款和robots.txt中表達意圖之間的普遍不一致。我們將這些視為無效網絡協議的症狀,這些協議並未設計用於應對互聯網被廣泛重新用於AI的情況。我們的長期分析顯示,在一年內(2023-2024),來自網絡來源的數據限制迅速增加,導致C4中約5%以上的所有標記,或C4中活躍維護的關鍵來源的28%以上,完全受限制無法使用。對於服務條款的爬取限制,C4中有整整45%現在受限。如果這些限制得到尊重或執行,將迅速導致通用AI系統的多樣性、新鮮度和擴展規則出現偏差。我們希望說明數據同意出現的新興危機,封閉了大部分開放網絡,不僅限於商業AI,還包括非商業AI和學術用途。
擴散模型在圖像動畫方面取得了巨大進展,這要歸功於其強大的生成能力。然而,隨著時間的推移,保持與輸入靜態圖像的詳細信息(例如風格、背景和物體)的時空一致性,以及確保根據文本提示引導的動畫視頻敘事的流暢性仍然具有挑戰性。在本文中,我們介紹了 Cinemo,這是一種新穎的圖像動畫方法,旨在實現更好的運動可控性,以及更強的時空一致性和流暢性。總的來說,我們提出了三種有效策略,用於 Cinemo 的訓練和推斷階段,以實現我們的目標。在訓練階段,Cinemo 著重於學習運動殘差的分佈,而不是通過運動擴散模型直接預測後續的運動。此外,提出了一種基於結構相似性指數的策略,以實現 Cinemo 對運動強度具有更好的可控性。在推斷階段,引入了一種基於離散余弦變換的噪聲精煉技術,以減輕突然的運動變化。這三種策略使 Cinemo 能夠產生高度一致、流暢和可控的結果。與先前的方法相比,Cinemo 提供了更簡單和更精確的用戶可控性。通過與幾種最先進的方法進行廣泛實驗,包括商業工具和研究方法,在多個指標上展示了我們提出方法的有效性和優越性。
基於獎勵的微調對於將語言策略與預期行為(例如創造力和安全性)保持一致至關重要。在這裡的一個關鍵挑戰是開發可調整的語言模型,以靈活高效地平衡多個(衝突的)目標。本文提出了條件語言策略(CLP),這是一個通用框架,用於在多個目標上微調語言模型。基於多任務訓練和參數高效微調的技術,CLP 可以學習到在推論時有效平衡衝突目標的可調整模型。值得注意的是,這不需要訓練或維護多個模型以實現不同目標之間的平衡。通過大量的實驗和消融,我們展示了 CLP 框架學習到的可調整模型勝過並 Pareto 優於當前多目標微調的最新方法。
建立在LLM強大基礎上,近期許多多模態大型語言模型(MLLMs)在各種視覺語言任務上取得了顯著的表現,跨越多個基準測試。然而,大多數現有的MLLMs和基準測試主要集中在單圖像輸入情境,導致MLLMs在處理現實多圖像時的表現仍未被充分探討。雖然有一些基準測試考慮了多圖像情境,但其評估維度和樣本非常有限。因此,在本文中,我們提出了一個新的基準測試MIBench,以全面評估MLLMs在多圖像情境中的細粒度能力。具體而言,MIBench將多圖像能力分為三個情境:多圖像指導(MII)、多模態知識尋求(MKS)和多模態上下文學習(MIC),並構建了13個任務,總共包含13K個標註樣本。在數據構建過程中,對於MII和MKS,我們從手動標註中提取正確選項並創建具有挑戰性的干擾項,以獲得多選問題。對於MIC,為了進行深入評估,我們設置了四個子任務,並將原始數據集轉換為上下文學習格式。我們在提出的MIBench上評估了幾個開源MLLMs和封閉源MLLMs。結果顯示,儘管當前模型在單圖像任務上表現出色,但面對多圖像輸入時存在顯著缺陷,例如細粒度感知混亂、有限的多圖像推理和不穩定的上下文學習。MIBench中的標註數據可在https://huggingface.co/datasets/StarBottle/MIBench找到。
語言代理人是建立在語言模型(LMs)之上的系統,能夠與複雜環境互動,例如開放網路。在這項研究中,我們探討這類代理人是否能在網路上執行現實且耗時的任務,例如監控房地產市場或尋找相關的附近企業。我們引入了AssistantBench,這是一個具有挑戰性的新基準,包含214個現實任務,可自動評估,涵蓋不同情境和領域。我們發現AssistantBench暴露了當前系統的局限性,包括語言模型和擴充檢索的語言模型,因為沒有模型達到超過25分的準確度。雖然閉書式LMs表現良好,但由於它們傾向幻覺事實,因此具有低精確度。最先進的網路代理人得分接近零。此外,我們介紹了SeePlanAct(SPA),這是一個新的網路代理人,明顯優於先前的代理人,而SPA和閉書式模型的組合達到最佳整體表現。此外,我們分析了當前系統的失敗之處,並強調網路導航仍然是一個主要挑戰。
現有的文本轉音樂模型能夠產生高質量且多樣化的音頻。然而,僅使用文本提示無法精確控制生成音樂的和弦和節奏等時間音樂特徵。為了應對這一挑戰,我們引入了 MusiConGen,這是一個基於 Transformer 的時間條件文本轉音樂模型,建立在預訓練的 MusicGen 框架之上。我們的創新在於一個針對消費級 GPU 定製的高效微調機制,該機制將自動提取的節奏和和弦整合為條件信號。在推斷過程中,條件可以是從參考音頻信號中提取的音樂特徵,也可以是用戶定義的符號和弦序列、BPM 和文本提示。我們對兩個數據集進行了性能評估,一個來自提取的特徵,另一個來自用戶創建的輸入,結果表明 MusiConGen 能夠生成與指定條件相符的逼真伴奏音樂。我們已將代碼和模型檢查點開源,並在線提供音頻示例,網址為 https://musicongen.github.io/musicongen_demo/。
我們介紹了 LocoTrack,這是一個專為跟蹤任意點(TAP)於視頻序列任務而設計的高精確度和高效率模型。先前在這項任務中的方法通常依賴於本地2D相關性地圖,以建立從查詢圖像中的一點到目標圖像中的本地區域的對應,但往往在處理均質區域或重複特徵時遇到困難,導致匹配的模棱兩可。LocoTrack通過一種新穎的方法克服了這個挑戰,該方法利用區域間的全對應,即本地4D相關性,來建立精確的對應,雙向對應和匹配平滑明顯增強了對模棱兩可的魯棒性。我們還將輕量級相關編碼器和緊湊的Transformer架構納入,以整合長期時間信息。LocoTrack在所有TAP-Vid基準測試中實現了無與倫比的準確性,並且運行速度幾乎比當前最先進的方法快了近6倍。
版面生成是智能設計的基礎任務,需要整合視覺美學和內容傳遞的和諧表達。然而,現有方法在生成精確且視覺上吸引人的版面方面仍面臨挑戰,包括版面之間的阻擋、重疊或空間錯位,這些問題與圖形版面的空間結構密切相關。我們發現這些方法過於注重內容信息,缺乏對版面空間結構的限制,導致在學習內容感知和圖形感知特徵之間存在不平衡。為了應對這個問題,我們提出了基於Transformer擴散模型的內容和圖形平衡版面生成(CGB-DM)。具體來說,我們首先設計一個調節器,平衡預測的內容和圖形權重,克服了更多關注畫布上內容的趨勢。其次,我們引入了一個圖形約束的显著性邊界框,進一步增強版面表示和圖像之間幾何特徵的對齊。此外,我們採用了Transformer擴散模型作為骨幹,其強大的生成能力確保了版面生成的質量。大量實驗結果表明,我們的方法在定量和定性評估中均取得了最先進的性能。我們的模型框架還可以擴展到其他圖形設計領域。
熱成像技術具有各種應用,從農業監測到建築檢查,再到在低光、霧、雨等能見度差的環境下進行成像。然而,由於長波紅外線(LWIR)圖像中的分辨率相對較低且特徵有限,因此在3D中重建熱場景存在幾個挑戰。為了克服這些挑戰,我們提出了一個統一的框架,用於從一組LWIR和RGB圖像中重建場景,使用多光譜輻射場來表示可見光和紅外攝像機都觀察到的場景,從而利用兩個光譜間的信息。我們對RGB和紅外攝像機進行校準,作為預處理步驟,使用簡單的校準目標。我們展示了我們的方法應用於從手持熱成像相機拍攝的真實RGB和LWIR照片集,展示了我們的方法在可見光和紅外光譜間的場景表示效果。我們展示了我們的方法能夠進行熱超分辨率,以及在視覺上消除障礙物,揭示在RGB或熱通道中被遮擋的物體。請參見https://yvette256.github.io/thermalnerf 以查看視頻結果以及我們的代碼和數據集。
我們引入時間殘差雅可比矩陣作為一種新穎的表示,以實現基於數據的運動轉移。我們的方法不假設訪問任何骨骼綁定或中間形狀關鍵幀,能夠生成幾何和時間上一致的運動,並可用於轉移長運動序列。我們方法的核心是兩個耦合的神經網絡,分別預測局部幾何和時間變化,然後將其集成,空間和時間上,以生成最終的動畫網格。這兩個網絡是聯合訓練的,彼此補充,在生成空間和時間信號方面,直接使用三維位置信息進行監督。在推理過程中,在沒有關鍵幀的情況下,我們的方法基本上解決了一個運動外推問題。我們在各種網格(合成和掃描形狀)上測試我們的設置,以展示其在未見身體形狀上生成逼真和自然外觀動畫方面優於SoTA替代方案。補充視頻和代碼可在https://temporaljacobians.github.io/ 上找到。
本文介紹了GET-Zero,這是一種模型架構和訓練程序,用於學習一種意識體現感知的控制策略,可以立即適應新的硬體變化而無需重新訓練。為此,我們提出了圖形體現轉換器(GET),這是一種利用體現圖連通性作為注意機制中學習的結構偏差的變壓器模型。我們使用行為克隆,將體現特定專家策略的示範數據提煉到一個考慮機器人硬體配置的體現感知GET模型中,以做出控制決策。我們在一個靈巧的手內物體旋轉任務上進行了案例研究,使用四指機器人手的不同配置,包括刪除關節和增加連桿長度。使用GET模型以及自建模損失,使GET-Zero能夠對圖形結構和連桿長度的未見變化進行零樣本泛化,比基準方法提高了20%。所有代碼和定性視頻結果都在https://get-zero-paper.github.io 上。
近期在大型多模態模型(LMMs)方面的進展在單圖像視覺問答領域取得了顯著進展。然而,這些模型在處理涵蓋大量圖像的查詢時面臨著重大挑戰,類似於真實世界的情境,例如搜索大型相冊、在互聯網上查找特定信息,或通過衛星圖像監控環境變化。本文探討了多圖像視覺問答(MIQA)任務:給定一組大量圖像和自然語言查詢,任務是生成相關且基於事實的回答。我們提出了一個新的公開基準,名為“視覺乾草堆(VHs)”,專門設計用於評估LMMs在視覺檢索和推理上的能力,這裡我們進行了全面的評估,顯示即使是強大的封閉源模型也面臨著重大困難。為了解決這些缺點,我們引入了MIRAGE(多圖像檢索增強生成),這是一個針對LMMs量身定制的新型檢索/問答框架,能夠有效應對MIQA的挑戰,並且在效率和準確性方面相對於基準方法實現了明顯的改進。我們的評估顯示,MIRAGE在VHs基準上超越了封閉源GPT-4o模型高達11%,並且在效率方面相對於以文本為重點的多階段方法實現了高達3.4倍的改進。