每日精選AI研究論文及翻譯
本文旨在增強SwiftBrush的性能,這是一個著名的一步式文本到圖像擴散模型,以使其能夠與多步式穩定擴散模型競爭。最初,我們探討了SwiftBrush和SD Turbo之間的質量-多樣性權衡:前者擅長於圖像多樣性,而後者擅長於圖像質量。這一觀察激發了我們對訓練方法的修改,包括更好的權重初始化和高效的LoRA訓練。此外,我們引入了一種新的夾制CLIP損失,增強了圖像和文本的對齊,並提高了圖像質量。值得注意的是,通過結合使用高效LoRA和完整訓練的模型權重,我們實現了一個新的最先進的一步式擴散模型,實現了8.14的FID,超越了所有基於GAN和多步穩定擴散模型。評估代碼可在以下鏈接找到:https://github.com/vinairesearch/swiftbrushv2。
近年來,基礎模型(FMs)如大型語言模型(LLMs)和潛在擴散模型(LDMs)深刻影響了包括音樂在內的各個領域。這份全面的評論檢視了音樂領域中最先進的預訓練模型和基礎模型,涵蓋了表示學習、生成學習和多模態學習。我們首先將音樂在各個行業中的重要性置於背景中,並追溯了AI在音樂中的演變。通過描述基礎模型所針對的模態,我們發現許多音樂表示在FM發展中尚未得到充分探索。接著,我們強調了先前方法在多樣音樂應用上缺乏多樣性的問題,以及FMs在音樂理解、生成和醫學應用中的潛力。通過全面探索模型預訓練範式、架構選擇、標記化、微調方法和可控性的細節,我們強調了應該得到深入探討的重要主題,如指導調整和上下文學習、擴展定律和新興能力,以及長序列建模等。一個專門的部分提供了對音樂代理的見解,並伴隨對於預訓練和下游任務至關重要的數據集和評估的深入分析。最後,通過強調道德考量的至關重要性,我們主張,對於音樂的FM研究應更加關注解釋性、透明性、人類責任和版權問題等議題。本文提供了對音樂FMs未來挑戰和趨勢的見解,旨在塑造人工智能與音樂領域的人類合作軌跡。
在軟體工程中,解決 GitHub 問題是一項關鍵任務,最近在工業界和學術界都受到重視。在這個任務中,SWE-bench 已經釋出,用於評估大型語言模型(LLMs)的問題解決能力,但目前僅專注於 Python 版本。然而,支援更多編程語言也很重要,因為工業界有很強烈的需求。作為支援多語言的第一步,我們開發了 Java 版本的 SWE-bench,名為 SWE-bench-java。我們已經公開發布了數據集,以及相應的基於 Docker 的評估環境和排行榜,這將在接下來的幾個月持續維護和更新。為了驗證 SWE-bench-java 的可靠性,我們實現了一個經典方法 SWE-agent,並在其上測試了幾個強大的 LLMs。眾所周知,開發高質量的多語言基準測試是耗時且勞動密集的,因此我們歡迎通過拉取請求或合作來加速其迭代和完善,為完全自動化編程鋪平道路。
視覺生成模型的快速發展需要高效且可靠的評估方法。Arena平台收集用戶對模型比較的投票,可以根據人類偏好對模型進行排名。然而,傳統的Arena方法雖然已經確立,但需要大量比較才能收斂排名,並且容易受到投票偏好噪音的影響,這表明需要針對當代評估挑戰提出更好的方法。本文介紹了K-Sort Arena,這是一個高效且可靠的平台,基於一個關鍵洞察:圖像和視頻比文字具有更高的感知直觀性,使得可以同時快速評估多個樣本。因此,K-Sort Arena採用K路比較,允許K個模型參與自由競爭,這比兩兩比較提供了更豐富的信息。為了增強系統的穩健性,我們利用概率建模和貝葉斯更新技術。我們提出了一種基於探索-利用的配對策略,以促進更具信息性的比較。在我們的實驗中,K-Sort Arena的收斂速度比廣泛使用的ELO算法快了16.3倍。為了進一步驗證其優越性並獲得全面的排行榜,我們通過眾包評估收集了大量尖端的文本到圖像和文本到視頻模型的人類反饋。由於其高效性,K-Sort Arena可以持續納入新興模型並以最少的投票更新排行榜。我們的項目經過數月的內部測試,現在可在https://huggingface.co/spaces/ksort/K-Sort-Arena 上使用。
雲端專有大型語言模型(LLMs)的廣泛採用帶來了重大挑戰,包括運營依賴性、隱私擔憂和持續網路連接的必要性。在這項工作中,我們引入了一個名為"LlamaDuo"的LLMOps流程,用於從面向服務的LLMs順利遷移知識和能力到更小、本地可管理的模型。這個流程對於確保在遇到運營故障、嚴格的隱私政策或離線需求時服務的連續性至關重要。我們的LlamaDuo包括對一個小語言模型進行微調,使用由後者生成的合成數據集來對服務LLM進行微調。如果微調模型的表現不如預期,則通過進一步使用服務LLM創建的類似數據進行進一步微調來增強它。這種迭代過程確保較小的模型最終能夠在特定下游任務中匹敵甚至超越服務LLM的能力,為在受限環境中管理AI部署提供了實用且可擴展的解決方案。我們進行了與領先的LLMs的廣泛實驗,以展示LlamaDuo在各種下游任務中的效果、適應性和負擔能力。我們的流程實現可在https://github.com/deep-diver/llamaduo 上找到。
尋找語言模型預訓練的最佳學習率是一項具挑戰性的任務。這不僅是因為學習率、批次大小、訓練標記數量、模型大小和其他超參數之間存在著複雜的相互關係,而且因為對具有數十億或數萬億參數的大型語言模型進行超參數搜索成本過高。最近的研究提出使用小型代理模型和小型語料庫進行超參數搜索,並將最佳參數轉移到大型模型和大型語料庫中。儘管從理論和實證上證明了與模型大小相關的超參數(如深度和寬度)的零-shot可轉移性,但從小型語料庫到大型語料庫的零-shot轉移尚未得到充分探討。在本文中,我們研究了最近提出的WSD調度器的最佳學習率、批次大小和訓練標記數量之間的相關性。通過數千次小型實驗,我們發現了變數之間的冪律關係,並證明了其在模型大小之間的可轉移性。基於這一觀察,我們提出了一種新的學習率調度器,Power調度器,對訓練標記數量和批次大小保持中立。實驗表明,將Power調度器與最大更新參數化(muP)結合,可以始終以一組超參數實現出色的性能,而不受訓練標記數量、批次大小、模型大小甚至模型架構的影響。我們使用Power調度器訓練的3B密集型和MoE模型實現了與最先進小型語言模型相當的性能。我們在https://ibm.biz/BdKhLa 上開源了這些預訓練模型。
在多人第一人稱射擊遊戲中,如《反恐精英:全球攻勢》(CS:GO),協調移動是高級戰略遊戲中的關鍵組成部分。然而,團隊協調的複雜性和流行遊戲地圖中存在的各種條件使得為每種情況編寫手工製作的移動策略變得不切實際。我們展示了可以採用數據驅動方法來為CS:GO創建類似人類移動控制器的可能性。我們整理了一個包含123小時專業遊戲玩法軌跡的團隊移動數據集,並使用該數據集來訓練基於Transformer的移動模型,為遊戲中“Retakes”回合的所有玩家生成類似人類的團隊移動。重要的是,移動預測模型是高效的。對所有玩家進行推斷每個遊戲步驟的成本低於0.5毫秒(攤銷成本)在單個CPU核心上,使其在當今商業遊戲中的應用成為可能。人類評估者評估我們的模型行為更像人類,比商業可用機器人和專家編寫的程序化移動控制器(根據“人類”TrueSkill評分高16%至59%)更接近人類。通過涉及遊戲機器人自我對戰的實驗,我們展示了我們的模型執行簡單形式的團隊合作,做出更少的常見移動錯誤,並產生類似於專業CS:GO比賽中觀察到的移動分佈、玩家壽命和擊殺位置。
影片生成模型在電影製作等領域具有相當大的潛力。然而,目前的影片擴散模型需要高計算成本,並因影片生成任務的高複雜性而產生次優結果。本文提出了ConFiner,一個高效且高質量的影片生成框架,將影片生成分解為較簡單的子任務:結構控制和時空細化。它可以利用一系列現成的擴散模型專家生成高質量的影片,每個專家負責一個解耦的子任務。在細化過程中,我們引入協調去噪,可以將多個擴散專家的能力合併為單一取樣。此外,我們設計了ConFiner-Long框架,可以在ConFiner上應用三種約束策略生成長且連貫的影片。實驗結果表明,僅需10%的推論成本,我們的ConFiner在所有客觀和主觀指標上均超越了代表性模型,如Lavie和Modelscope。而ConFiner-Long可以生成高質量且連貫的影片,長達600幀。
在過去一年中,多模式大型語言模型(MM-LLMs)取得了顯著進展,在各種任務上展現出令人印象深刻的性能。然而,為了真正實現人工智慧的民主化,模型必須具有強大的能力,並能夠在大多數人可以輕鬆訪問的小型計算環境上高效運行。作為這個目標的一部分,我們介紹了 LLaVaOLMoBitnet1B - 第一個能夠接受圖像+文本輸入並生成連貫文本回應的三元多模式LLM。該模型完全開源,並附帶訓練腳本,以鼓勵在這一領域進行進一步研究。本技術報告突出了訓練過程、評估細節、三元模型相關的挑戰以及未來機遇。模型鏈接:https://huggingface.co/IntelLabs/LlavaOLMoBitnet1B
隨著大型語言模型(LLMs)的使用增加,導致對規模達行星級的服務系統需求急劇增加,這些系統需要數萬個 GPU 不斷為數億用戶提供服務。因此,在合理的延遲限制下,吞吐量已成為確定服務系統性能的關鍵指標。為了提高吞吐量,已經探索了各種設備間的並行方法(例如數據、張量、管道)。然而,現有方法並未考慮在單個設備內重疊利用不同資源,導致資源利用不足和性能次優。 我們提出了 NanoFlow,這是一個新穎的服務框架,利用設備內部的並行性,通過操作協調安排在單個設備內重疊使用計算、記憶體和網路等資源。為了利用設備內部的並行性,NanoFlow 引入了兩個關鍵創新:首先,NanoFlow 將請求分割為操作級別的納米批次,打破了LLM推理中順序操作的依賴,實現了重疊;然後,為了從重疊中獲益,NanoFlow 使用了具有執行單元排程的操作級管道,該管道將設備的功能單元進行劃分,同時在每個單元中執行不同的操作。NanoFlow 通過參數搜索算法自動設置管道,從而實現了輕鬆將 NanoFlow 移植到不同模型。我們在 NVIDIA GPU 上實現了 NanoFlow,並對 LLaMA-2-70B、Mixtral 8x7B、LLaMA-3-8B 等幾個熱門模型進行了端到端服務吞吐量評估。在實際工作負載下,NanoFlow 相比於最先進的服務系統實現了 1.91倍的吞吐量提升,達到了跨移植模型的最佳吞吐量的 59% 到 72%。
大型語言模型(LLMs)已經在語言處理方面引起了革命性的變化,在多個應用中取得了優秀的成果。然而,在邊緣設備上部署LLMs會面臨一些挑戰,例如記憶體、能源和計算成本,這限制了它們在移動手機等設備上的廣泛應用。一個有前途的解決方案是減少用於表示權重和激活的位數。儘管現有的研究在將LLMs量化為較低位寬(例如4位權重)方面取得了部分成功,但將激活量化超過16位往往會導致大量的計算開銷,這是由於設備上的量化支持不足,或者會導致顯著的準確度下降。然而,8位激活對於在設備上部署非常有吸引力,因為它們將使LLMs能夠充分利用適用於移動設備的硬件,例如神經處理單元(NPUs)。在這項工作中,我們首次嘗試使用僅整數量化來促進LLMs在設備上的部署。我們首先研究現有量化方法在設備上部署時的限制,特別關注激活量化。然後,通過引入一種名為MobileQuant的簡單的後訓練量化方法來解決這些限制,該方法通過共同優化權重轉換和激活範圍參數來端對端地擴展以前的權重等效轉換方法。MobileQuant在以下方面展現出優越的能力,比現有方法:1)在廣泛的LLM基準測試中實現接近無損的量化,2)與當前設備上的量化策略相比,將延遲和能源消耗減少20%-50%,3)需要有限的計算預算,4)與適用於移動設備的計算單元(例如NPU)兼容。
過渡影片在媒體製作中扮演著關鍵角色,提升視覺敘事的流暢性和連貫性。傳統方法如形變在藝術吸引力上常有所欠缺,並需要專業技能,限制了其效果。最近基於擴散模型的影片生成技術帶來了新的可能性,但面臨著像是模型化幀間關係不足和內容突變等挑戰。我們提出了一種新穎的無需訓練的過渡影片生成(TVG)方法,採用影片級擴散模型來解決這些限制,無需額外訓練。我們的方法利用高斯過程回歸(GPR)來建模潛在表示,確保幀間過渡平滑且動態。此外,我們引入基於插值的條件控制和頻率感知的雙向融合(FBiF)架構,以增強時間控制和過渡可靠性。對基準數據集和自定義圖像對的評估顯示了我們方法在生成高質量平滑過渡影片方面的有效性。程式碼可在 https://sobeymil.github.io/tvg.com 中找到。
大型語言模型(LLMs)如ChatGPT和Gemini顯著推進了自然語言處理,使得各種應用如聊天機器人和自動內容生成成為可能。然而,這些模型可能被惡意個人利用,他們製作有害的或不道德的提示來引發有害或不道德的回應。這些個人通常使用越獄技術來繞過安全機制,突顯了對堅固的有害提示檢測方法的需求。現有的檢測技術,無論是黑盒還是白盒,都面臨與有害提示的多樣性、可擴展性和計算效率相關的挑戰。為此,我們提出了ToxicDetector,一種輕量級的灰盒方法,旨在有效檢測LLMs中的有害提示。ToxicDetector利用LLMs創建有害概念提示,使用嵌入向量形成特徵向量,並使用多層感知器(MLP)分類器進行提示分類。我們對各種版本的LLama模型、Gemma-2和多個數據集的評估表明,ToxicDetector實現了高達96.39%的準確率和2.00%的低誤報率,優於最先進的方法。此外,ToxicDetector每個提示的處理時間為0.0780秒,非常適合實時應用。ToxicDetector實現了高準確性、效率和可擴展性,使其成為LLMs中有害提示檢測的實用方法。
現有的單張圖像人體重建作品由於訓練數據不足或三維不一致,導致泛化能力較弱,缺乏全面的多視角知識。本文介紹了MagicMan,一個針對人體的多視角擴散模型,旨在從單張參考圖像生成高質量的新視角圖像。在其核心,我們利用預先訓練的二維擴散模型作為生成先驗以提高泛化能力,並使用SMPL-X模型作為三維身體先驗以促進三維意識。為了應對在實現改善三維人體重建的密集多視角生成的同時保持一致性的關鍵挑戰,我們首先引入了混合多視角注意力,以促進不同視角之間的高效和全面信息交換。此外,我們提出了一個幾何感知的雙分支,同時在RGB和法向域中執行並進行生成,通過幾何線索進一步增強一致性。最後,為了解決由於不準確的SMPL-X估計而與參考圖像相衝突而產生的不良形狀問題,我們提出了一種新穎的迭代細化策略,逐步優化SMPL-X的準確性,同時提高生成的多視角的質量和一致性。大量實驗結果表明,我們的方法在新視角合成和隨後的三維人體重建任務中顯著優於現有方法。