每日精選AI研究論文及翻譯
高質量的指導數據對於調整大型語言模型(LLMs)至關重要。儘管一些模型,如Llama-3-Instruct,具有公開權重,但它們的對齊數據仍然保持私有,這阻礙了人工智慧的民主化。高昂的人力成本和有限的預定範圍限制了現有的開源數據創建方法的有效擴展,可能會限制公共對齊數據集的多樣性和質量。通過直接從對齊的LLM中提取,合成大規模高質量的指導數據是否可能?我們提出了一種名為Magpie的自我合成方法,用於生成大規模的對齊數據。我們的關鍵觀察是,像Llama-3-Instruct這樣的對齊LLMs可以在僅輸入左側模板直到保留給用戶消息的位置時生成用戶查詢,這要歸功於它們的自回歸性質。我們使用這種方法提示Llama-3-Instruct並生成了400萬條指導以及相應的回應。我們對提取的數據進行了全面分析並選擇了30萬個高質量實例。為了將Magpie數據與其他公共指導數據集進行比較,我們使用每個數據集對Llama-3-8B-Base進行微調,並評估微調模型的性能。我們的結果表明,在某些任務中,使用Magpie進行微調的模型在性能上與官方的Llama-3-8B-Instruct相當,儘管後者通過監督微調(SFT)和隨後的反饋學習增強了1000萬數據點。我們還表明,僅使用Magpie進行SFT可以超越以往用於SFT和偏好優化的公共數據集的性能,例如使用UltraFeedback進行直接偏好優化。這種優勢在AlpacaEval、ArenaHard和WildBench等對齊基準上是顯而易見的。
我們提出了一個名為 NaRCan 的影片編輯框架,該框架整合了混合變形場和擴散先驗,以生成高質量的自然規範圖像,以代表輸入影片。我們的方法利用同構來模擬全局運動,並使用多層感知器(MLPs)來捕捉局部殘差變形,增強模型處理複雜影片動態的能力。通過在訓練的早期階段引入擴散先驗,我們的模型確保生成的圖像保留高質量的自然外觀,使生成的規範圖像適用於影片編輯中的各種下游任務,這是當前基於規範的方法所無法實現的。此外,我們融入了低秩適應(LoRA)微調,並引入了一種噪聲和擴散先驗更新排程技術,可將訓練過程加速 14 倍。廣泛的實驗結果顯示,我們的方法在各種影片編輯任務中優於現有方法,並產生連貫且高質量的編輯影片序列。請查看我們的項目頁面以獲取影片結果,網址為 https://koi953215.github.io/NaRCan_page/。
網路爬蟲的圖像-文字配對固有地存在噪音。先前的研究表明,語義對齊和豐富化這些配對的文本描述可以顯著增強模型在各種視覺-語言任務中的訓練效果,特別是文本到圖像生成。然而,在這個領域中,大規模的調查仍然主要是封閉源碼的。我們的論文旨在搭起這個社區努力的橋樑,利用功能強大且開源的LLaMA-3,一個等同於GPT-4級別的LLM。我們的重新標題流程很簡單:首先,我們微調一個由LLaMA-3-8B提供動力的LLaVA-1.5,然後利用它重新標題DataComp-1B數據集中的13億張圖像。我們的實證結果證實,這個增強的數據集Recap-DataComp-1B在訓練先進的視覺-語言模型方面提供了顯著的好處。對於像CLIP這樣的區分模型,我們觀察到在跨模態檢索任務中的零樣本表現有所提升。對於像文本到圖像擴散變換器這樣的生成模型,生成的圖像在與用戶的文本指示對齊方面有了顯著的改善,特別是在遵循複雜查詢時。我們的項目頁面是https://www.haqtu.me/Recap-Datacomp-1B/
基於運動控制的文本到視頻生成涉及運動來控制視頻生成。先前的方法通常需要訓練模型來編碼運動線索或微調視頻擴散模型。然而,這些方法在應用於訓練領域之外時,通常會導致次優的運動生成。在這項工作中,我們提出了MotionClone,一個無需訓練的框架,可以從參考視頻中克隆運動,以控制文本到視頻生成。我們在視頻反演中使用時間注意力來表示參考視頻中的運動,並引入主要的時間注意力指導,以減輕注意力權重中嘈雜或非常微妙運動的影響。此外,為了幫助生成模型合成合理的空間關係並增強其及時跟隨能力,我們提出了一種位置感知語義引導機制,利用參考視頻中前景的粗略位置和原始無分類器引導特徵來引導視頻生成。大量實驗表明,MotionClone 在全局相機運動和局部對象運動方面表現出色,具有顯著的優越性,包括運動保真度、文本對齊和時間一致性。
近年來,3D生成模型有了快速發展,為模擬3D物體的動態運動和自定義行為等應用開創了新的可能性。然而,目前的3D生成模型往往僅關注表面特徵,如顏色和形狀,忽略了控制現實世界中物體行為的固有物理特性。為了準確模擬與物理相符的動態,必須預測材料的物理特性並將其納入行為預測過程中。然而,由於現實世界物體的多樣材料具有複雜的物理屬性,因此預測它們仍然具有挑戰性。本文提出了Physics3D,一種通過視頻擴散模型學習3D物體各種物理特性的新方法。我們的方法涉及設計一個基於粘彈性材料模型的高度通用的物理模擬系統,使我們能夠以高保真度模擬各種材料。此外,我們從包含更多對現實物體材料理解的視頻擴散模型中提煉出物理先驗知識。大量實驗證明了我們的方法對彈性和塑性材料的有效性。Physics3D展現了將物理世界與虛擬神經空間之間的鴻溝,提供更好地在虛擬環境中整合和應用現實物理原則的潛力。項目頁面:https://liuff19.github.io/Physics3D。
本文介紹了PowerInfer-2,一個旨在在智慧型手機上快速推斷大型語言模型(LLM)的框架,特別適用於模型大小超出設備記憶體容量的情況。PowerInfer-2的關鍵見解在於通過將傳統矩陣計算分解為細粒度神經元集群計算,利用智慧型手機中的異構計算、記憶體和I/O資源。具體來說,PowerInfer-2具備多態神經元引擎,可為LLM推斷的各個階段適應計算策略。此外,它引入了分段神經元緩存和細粒度神經元集群級流水線,有效地減少並隱藏了I/O操作帶來的開銷。PowerInfer-2的實施和評估展示了它支持兩款智慧型手機上各種LLM模型的能力,相較於最先進的框架,實現了高達29.2倍的速度提升。值得注意的是,PowerInfer-2是第一個在智慧型手機上以每秒11.68個標記的速率提供TurboSparse-Mixtral-47B模型的系統。對於完全適應記憶體的模型,PowerInfer-2在保持推斷速度與llama.cpp和MLC-LLM相當的情況下,可以實現記憶體使用量的約40%減少。有關更多詳細信息,包括演示視頻,請訪問項目網站www.powerinfer.ai/v2。
也許不是。我們識別並分析了流行的大規模多任務語言理解(MMLU)基準中的錯誤。儘管MMLU被廣泛採用,但我們的分析顯示出許多地面真相錯誤,這些錯誤掩蓋了LLM的真正能力。例如,我們發現在病毒學子集中分析的問題中,有57% 包含錯誤。為了解決這個問題,我們引入了一個全面的框架,使用一個新穎的錯誤分類法來識別數據集中的錯誤。然後,我們創建了MMLU-Redux,這是跨越30個MMLU主題的3,000個手動重新標註問題的子集。使用MMLU-Redux,我們展示了與最初報告的模型性能指標存在顯著差異。我們的結果堅決主張修訂MMLU中錯誤的問題,以增強其作為基準的未來效用和可靠性。因此,我們開放了MMLU-Redux 供進一步註釋。
本文介紹了VideoLLaMA 2,一組Video Large Language Models(Video-LLMs),旨在增強視頻和音頻導向任務中的時空建模和音頻理解。在其前身的基礎上,VideoLLaMA 2包含了一個定製的空間-時間卷積(STC)連接器,有效捕捉視頻數據的複雜空間和時間動態。此外,我們通過聯合訓練將音頻分支整合到模型中,從而通過無縫整合音頻提示,豐富了模型的多模態理解能力。在多選視頻問答(MC-VQA)、開放式視頻問答(OE-VQA)和視頻字幕(VC)任務上進行的全面評估表明,VideoLLaMA 2在多個基準測試中始終取得競爭優勢,甚至在一些基準測試中接近一些專有模型。此外,VideoLLaMA 2在現有模型的僅音頻和音視頻問答(AQA和OE-AVQA)基準測試中展現出合理的改進。這些進步凸顯了VideoLLaMA 2在多模態理解方面的卓越表現,為智能視頻分析系統設定了新標準。所有模型均為公開,以促進進一步的研究。
語言與3D感知的整合對於發展理解並與物理世界互動的具體代理和機器人至關重要。儘管大型語言模型(LLMs)展示了令人印象深刻的語言理解和生成能力,但它們適應3D環境(3D-LLMs)仍處於早期階段。主要挑戰之一是缺乏提供語言與3D場景之間密集基礎的大規模數據集。在本文中,我們介紹了3D-GRAND,一個開創性的大規模數據集,包括40,087個家庭場景,配對了620萬個密集基礎的場景語言指令。我們的結果顯示,使用3D-GRAND進行指令調整顯著增強了基礎能力並減少了3D-LLMs中的幻覺。作為我們的貢獻的一部分,我們提出了一個全面的基準3D-POPE,以系統地評估3D-LLMs中的幻覺,從而實現未來模型之間的公平比較。我們的實驗突出了數據集大小與3D-LLM性能之間的規模效應,強調了大規模3D文本數據集在推動具體AI研究中的關鍵作用。值得注意的是,我們的結果顯示了有效的從模擬到真實的轉移的早期信號,表明在大規模合成數據上訓練的模型可以在真實世界的3D掃描上表現良好。通過3D-GRAND和3D-POPE,我們旨在為具體AI社區提供必要的資源和見解,為更可靠和更有基礎的3D-LLMs奠定基礎。項目網站:https://3d-grand.github.io
多模式語言模型(MLLMs)展示了「世界模型」的新興能力,即解釋和推理複雜的現實世界動態。為了評估這些能力,我們認為視頻是理想的媒介,因為它們包含了豐富的現實世界動態和因果關係的表示。為此,我們引入了MMWorld,這是一個新的用於多學科、多方面多模式視頻理解的基準。MMWorld通過兩個獨特優勢與先前的視頻理解基準區分開來:(1)多學科,涵蓋各種通常需要領域專業知識才能全面理解的學科;(2)多方面推理,包括解釋、反事實思考、未來預測等。MMWorld包括一個人工標註的數據集,用於通過關於整個視頻的問題來評估MLLMs,以及一個合成數據集,用於分析MLLMs在感知的單一模態內。總共,MMWorld包含了1,910個視頻,涵蓋七個廣泛的學科和69個子學科,共有6,627個問答對和相關標題。評估包括2個專有和10個開源MLLMs,這些模型在MMWorld上表現不佳(例如,GPT-4V的準確率僅為52.3%),顯示了有很大的改進空間。進一步的消融研究揭示了其他有趣的發現,例如模型與人類的不同技能組。我們希望MMWorld能成為評估視頻中世界模型的一個重要步驟。
利用激活稀疏性是一種有前途的方法,可以顯著加速大型語言模型(LLMs)的推論過程,同時不影響性能。然而,激活稀疏性取決於激活函數,常用的函數如SwiGLU和GeGLU表現出有限的稀疏性。僅僅將這些函數替換為ReLU無法達到足夠的稀疏性。此外,不足的訓練數據還可能進一步增加性能下降的風險。為應對這些挑戰,我們提出了一種新穎的dReLU函數,旨在改善LLM激活稀疏性,並提供高質量的訓練數據混合比例,以促進有效的稀疏化。此外,我們利用混合專家(MoE)模型中前馈網絡(FFN)專家內的稀疏激活模式,進一步提高效率。通過將我們的神經元稀疏化方法應用於Mistral和Mixtral模型,分別在每次推論迭代中僅激活25億和43億個參數,同時實現更強大的模型性能。評估結果顯示,這種稀疏性實現了2-5倍的解碼加速。值得注意的是,在手機上,我們的TurboSparse-Mixtral-47B實現了每秒11個標記的推論速度。我們的模型可在https://huggingface.co/PowerInfer找到。
最近,應用現代基於擴散的文本到圖像生成模型來創建藝術字型,傳統上是專業設計師的領域,已經引起了相當大的興趣。與大多數現有研究集中於生成藝術字體不同,我們的研究旨在應對一個新穎且更具挑戰性的任務:多語言字型的文本效果生成。這個任務基本上要求在字型形狀的畫布範圍內生成連貫一致的視覺內容,而不是傳統的矩形畫布。為了應對這個任務,我們引入了一種新穎的形狀適應性擴散模型,能夠解釋給定形狀並在不規則畫布內部策略性地規劃像素分佈。為了實現這一目標,我們精心製作了一個高質量的形狀適應性圖像文本數據集,並將分割遮罩作為視覺條件納入,以引導在不規則畫布內進行圖像生成過程。這種方法使傳統基於矩形畫布的擴散模型能夠根據提供的幾何形狀生成所需的概念。其次,為了在多個字母之間保持一致性,我們還提出了一種無需訓練的形狀適應性效果轉移方法,用於將生成的參考字母中的紋理轉移到其他字母。關鍵見解是建立字體效果噪聲先驗並在串聯潛在空間中傳播字體效果信息。通過用戶偏好研究確認了我們的FontStudio系統的有效性,結果顯示,即使與最新無與倫比的商業產品Adobe Firefly相比,我們的系統在美學上也獲得了明顯的偏好(78%的勝率)。
最近的擴散Transformer(DiTs)展示了在生成高質量單模態內容方面的印象深刻能力,包括圖像、視頻和音頻。然而,目前尚未深入探討基於Transformer的擴散器是否能有效去噪高斯噪聲以實現出色的多模態內容創建。為了彌合這一差距,我們引入了AV-DiT,這是一種新穎且高效的音視頻擴散Transformer,旨在生成具有視覺和音頻軌跡的高質量、逼真的視頻。為了最小化模型複雜性和計算成本,AV-DiT利用了一個在僅圖像數據上預先訓練的共享DiT骨幹,僅有輕量級的新插入適配器可進行訓練。這個共享骨幹促進了音頻和視頻的生成。具體來說,視頻分支將一個可訓練的時間注意層整合到一個凍結的預先訓練DiT塊中,以實現時間一致性。此外,一小部分可訓練參數使基於圖像的DiT塊適應音頻生成。一個額外的共享DiT塊,配備輕量級參數,促進了音頻和視覺模態之間的特徵交互,確保對齊。在AIST++和Landscape數據集上進行的大量實驗表明,AV-DiT在聯合音視頻生成方面實現了最先進的性能,並且具有顯著更少的可調參數。此外,我們的結果突顯了單個共享圖像生成骨幹與模態特定適配器足以構建聯合音視頻生成器。我們的源代碼和預訓練模型將被釋放。
離線偏好優化是增強和控制大型語言模型(LLM)輸出品質的關鍵方法。通常,偏好優化被視為離線監督式學習任務,使用手工設計的凸損失函數。儘管這些方法基於理論見解,但受限於人類創造力,因此可能的損失函數搜索空間仍未被充分探索。我們通過執行以LLM驅動的客觀發現,自動發現新的最先進偏好優化算法,而無需(專家)人為干預。具體而言,我們迭代提示LLM提出並實施新的偏好優化損失函數,這些損失函數基於先前評估的性能指標。這個過程導致了以前未知且表現優異的偏好優化算法的發現。其中表現最佳的我們稱之為發現式偏好優化(DiscoPOP),這是一種新穎的算法,可以自適應地融合邏輯和指數損失。實驗證明了DiscoPOP的最先進性能以及其成功應用於保留任務。
擴散模型在圖像和視頻合成方面展現出卓越的性能。然而,將其擴展至高分辨率輸入具有挑戰性,需要將擴散管道重組為多個獨立組件,從而限制了可擴展性並使下游應用變得複雜。這在訓練過程中非常高效,並實現了對高分辨率視頻的端到端優化。我們以兩種原則方式改進了PDMs。首先,為了強化各個區塊之間的一致性,我們開發了深度上下文融合——一種從低尺度到高尺度區塊以階層方式傳播上下文信息的結構技術。其次,為了加速訓練和推斷,我們提出了自適應計算,該方法將更多的網絡容量和計算資源分配給粗略的圖像細節。最終模型在UCF-101 256^2的類條件視頻生成中取得了新的最先進FVD得分為66.32和Inception Score為87.68,超過了最近方法超過100%。然後,我們展示它可以從基礎36x64低分辨率生成器快速微調,用於高分辨率64x288x512文本到視頻合成。據我們所知,我們的模型是第一個完全端到端訓練的基於擴散的架構,可以在如此高的分辨率上進行訓練。項目網頁:https://snap-research.github.io/hpdm。
高分辨率的清晰視覺是大型多模型(LMMs)的基礎,已被證實對視覺感知和推理至關重要。現有作品通常採用直接的解析度放大方法,其中圖像包含全局和局部分支,後者是切割的圖像片段,但調整為與前者相同的解析度。這意味著更高的解析度需要更多的局部片段,導致極高的計算開銷,同時,局部圖像標記的主導地位可能會削弱全局上下文。在本文中,我們深入探討問題並提出一個新的框架以及一個精心的優化策略。具體而言,我們使用各種適配器從全局視圖中提取上下文信息,基於觀察到不同的適配器擅長不同的任務。關於局部片段,引入可學習的查詢嵌入以減少圖像標記,最重要的標記將通過基於相似性的選擇器進一步選擇,這些標記對用戶問題至關重要。我們的實證結果顯示了“少即是多”的模式,利用更少但更具信息量的局部圖像標記可提高性能。此外,一個重要挑戰在於訓練策略,因為全局挖掘塊和局部壓縮塊的同時端對端訓練並不能產生最佳結果。因此,我們主張採用交替訓練方式,確保在全局和局部方面之間平衡學習。最後,我們還介紹了一個對圖像細節要求很高的具有挑戰性的數據集,增強了局部壓縮層的訓練。所提出的方法,稱為具有複雜任務、局部圖像壓縮和全局專家混合(SliME)的LMM,僅使用200萬個訓練數據,在各種基準測試中取得領先性能。
我們介紹了視覺標題修復(VCR),這是一個新穎的視覺-語言任務,挑戰模型使用圖像內的像素級提示來準確修復部分遮蔽的文本。這個任務源於一個觀察,即嵌入圖像中的文本與常見的視覺元素和自然語言 intrinsically 不同,因為需要對齊視覺、文本和嵌入圖像中的文本的模態。儘管許多作品將嵌入圖像中的文本整合到視覺問答任務中,但這些任務的方法通常依賴於光學字符識別或遮罩語言建模,因此將任務主要簡化為基於文本的處理。然而,在 VCR 中,基於文本的處理變得無效,因為準確的文本修復取決於從提供的圖像、上下文和遮蔽文本的微小暴露區域的微妙提示中獲得的結合信息。我們開發了一個流程,使用圖像標題對來生成 VCR 任務的合成圖像,並通過調整標題的可見性來控制任務的難度。通過這個流程,我們構建了一個名為 VCR-Wiki 的 VCR 數據集,其中包含來自維基百科的帶有圖像標題的圖像,包括 2.11M 英文和 346K 中文實體,分別有簡單和困難的變體。我們的結果顯示,當前的視覺語言模型在 VCR 任務中明顯落後於人類表現,僅對我們的數據集進行微調並不會帶來顯著的改善。我們釋出了 VCR-Wiki 和數據構建代碼,以促進未來的研究。
建模多變量時間序列是一個廣泛應用的問題,涵蓋了從醫療保健到金融市場等各種應用。傳統的狀態空間模型(SSMs)是用於單變量時間序列建模的經典方法,因其簡單性和表達能力而聞名,能夠表示線性依賴關係。然而,它們在捕捉非線性依賴關係方面具有根本性的表達能力限制,實際應用中速度較慢,並且無法建模變量間的信息流。儘管最近有嘗試通過使用深度結構SSMs來提高SSMs的表達能力,但現有方法要麼僅限於單變量時間序列,無法建模複雜模式(例如季節性模式),無法動態建模變量和時間維度的依賴關係,或者與輸入無關。我們提出了Chimera,它使用兩個與輸入相關的2-D SSM頭部,具有不同的離散化過程,以學習長期進展和季節性模式。為了提高複雜的2D循環的效率,我們提出了一種新的2維平行選擇掃描,實現快速訓練。我們進一步提出並討論了2維Mamba和Mamba-2作為我們2D SSM的特殊情況。我們的實驗評估顯示Chimera在廣泛和多樣的基準測試中表現優越,包括心電圖和語音時間序列分類、長期和短期時間序列預測,以及時間序列異常檢測。
大型語言模型(LLMs)已經發展到涵蓋廣泛領域的廣泛知識。然而,控制大型語言模型不應該知道的內容對確保對齊性和安全使用至關重要。然而,由於保留和遺忘之間模糊邊界可能導致的潛在附帶損害,以及在具有數百億參數的最先進模型上進行優化所需的大量計算,因此從LLM中準確且高效地遺忘知識仍然具有挑戰性。在這項工作中,我們提出了Embedding-COrrupted(ECO)Prompts,這是一個輕量級的大型語言模型遺忘框架,旨在應對知識交織和遺忘效率的挑戰。我們不依賴LLM本身進行遺忘,而是通過使用提示分類器在推論期間實施一個已遺忘狀態,以識別和保護應該遺忘的提示。我們通過零階優化學習對提示嵌入添加的損壞,以實現離線遺忘目標,並在推論期間通過分類器標記損壞的提示。我們發現這些嵌入損壞的提示不僅產生符合遺忘目標的理想輸出,而且與從未接受過旨在遺忘的數據訓練的模型的輸出非常接近。通過大量遺忘實驗,我們展示了我們的方法在一般領域和與遺忘領域密切相關的領域中實現了幾乎零副作用的優越性。此外,我們強調了我們的方法在100個LLMs的可擴展性,這些LLMs的參數範圍從0.5B到236B,隨著參數數量增加,不會產生額外成本。
病理學是對患病組織的顯微檢查,對於診斷各種醫學狀況特別是癌症至關重要。傳統方法耗時且容易出現人為錯誤。數位病理學將玻璃切片轉換為高解析度數位影像,供電腦演算法分析,通過自動化影像分析和大規模數據處理提高診斷準確性、一致性和效率,徹底改變了這一領域。基礎變壓器預訓練對於開發強大且具有一般化能力的模型至關重要,因為它使模型能夠從大量未標記數據中學習。 本文介紹了 Hibou 系列基礎視覺變壓器,用 DINOv2 框架預訓練兩個模型變體,Hibou-B 和 Hibou-L,在一個擁有超過一百萬張代表多種組織類型和染色技術的專有數據集上進行。我們的預訓練模型在補丁級和切片級基準測試中展示出卓越的性能,超越了現有的最先進方法。值得注意的是,Hibou-L 在多個基準數據集上實現了最高的平均準確性。為了支持該領域的進一步研究和應用,我們已將 Hibou-B 模型開源,可在 https://github.com/HistAI/hibou 上獲取。
遮罩擴散(或吸收擴散)被積極探索作為生成式建模離散數據的替代方法,以取代自回歸模型。然而,在這個領域的現有工作受到不必要複雜的模型公式和不同觀點之間關係不清晰的阻礙,導致參數化、訓練目標和臨時調整方面的次優處理。在這項工作中,我們的目標是提供一個簡單且通用的框架,發揮遮罩擴散模型的全部潛力。我們展示遮罩擴散模型的連續時間變分目標是交叉熵損失的簡單加權積分。我們的框架還能夠訓練具有狀態依賴遮罩計劃的泛化遮罩擴散模型。通過困惑度評估,我們在OpenWebText上訓練的模型在GPT-2規模上超越先前的擴散語言模型,在5個零樣本語言建模任務中表現優異。此外,我們的模型在像素級圖像建模方面遠遠優於先前的離散擴散模型,在CIFAR-10達到每維2.78位,在ImageNet 64x64達到每維3.42位,這些結果與相似大小的自回歸模型相當或更好。