每日精選AI研究論文及翻譯
準確解釋複雜視覺信息的能力是多模式大型語言模型(MLLMs)的一個關鍵話題。最近的研究表明,增強的視覺感知顯著減少幻覺,並改善對分辨率敏感任務的表現,例如光學字符識別和文檔分析。一些最近的MLLMs通過使用多種視覺編碼器來實現這一目標。儘管它們取得了成功,但缺乏系統性比較和詳細的剔除研究,解決關鍵問題,如專家選擇和多個視覺專家的整合。本研究對使用多種視覺編碼器和分辨率的MLLMs的設計空間進行了廣泛探索。我們的研究發現了幾個潛在原則,這些原則適用於各種現有策略,從而引導出一種簡化而有效的設計方法。我們發現,簡單地將來自一組互補視覺編碼器的視覺標記串聯起來,與更複雜的混合架構或策略一樣有效。此外,我們引入了預對齊(Pre-Alignment)來彌合以視覺為重點的編碼器和語言標記之間的差距,增強模型的一致性。由此產生的MLLMs系列Eagle,在主要MLLM基準測試中超越其他領先的開源模型。模型和代碼:https://github.com/NVlabs/Eagle
大型語言模型(LLM)的一般能力高度依賴於廣泛預訓練數據集的組成和選擇,這些數據集被一些機構視為商業機密。為了解決這個問題,我們將一個通用的數據處理流程的細節開源,並通過引入一個具有競爭力的LLM基線來驗證其有效性和潛力。具體而言,數據處理流程包括廣泛收集以擴大規模和重新加權以提高質量。然後,我們使用我們的流程處理了30億標記的7B模型BaichuanSEED的預訓練,沒有任何刻意針對下游任務的優化,然後進行簡單但有效的監督微調階段。BaichuanSEED在整個訓練過程中表現出一致性和可預測性,在多個全面基準測試中實現了與幾個商業先進大型語言模型(如Qwen1.5和Llama3)可比擬的性能。我們還進行了幾個啟發式實驗,討論了進一步優化下游任務(如數學和編碼)的潛力。
本文介紹了Dolphin,一種新穎的解碼器-解碼器架構,用於在語言模型中高效處理長上下文。我們的方法解決了設備上模型固有的顯著能耗和延遲挑戰。Dolphin採用緊湊的0.5B參數解碼器,將廣泛的上下文信息提煉成記憶嵌入,大幅減少主要的7B參數解碼器模型的輸入長度。受視覺語言模型的啟發,我們重新運用圖像嵌入投影器來編碼長文本上下文,有效地將擴展上下文視為一種獨特的模態。這種創新方法使得能夠處理更長的上下文,而無需處理擴展輸入序列所帶來的典型計算開銷。實證評估顯示,與傳統的全長上下文處理方法相比,能效提高了10倍,延遲減少了5倍,而不會降低回應質量。我們的工作有助於開發更具可持續性和可擴展性的語言模型,以應對資源受限環境中對節能和反應靈敏的人工智能技術的迫切需求,同時保持準確性以理解長上下文。這項研究對自然語言處理的更廣泛領域具有影響,特別是在為資源有限環境設計高效模型方面。通過在邊緣設備上實現更複雜的人工智能功能,Dolphin為在計算資源有限的廣泛應用中實現先進的語言處理鋪平了道路。Dolphin模型可在https://huggingface.co/NexaAIDev/Dolphin 公開獲取。
我們介紹了LLaVA-MoD,一個新穎的框架,旨在通過從大規模MLLM(l-MLLM)中提煉知識,實現小規模多模態語言模型(s-MLLM)的高效訓練。我們的方法應對了MLLM提煉中的兩個基本挑戰。首先,通過將稀疏專家混合(MoE)架構整合到語言模型中,優化了s-MLLM的網絡結構,實現了計算效率和模型表現力之間的平衡。其次,我們提出了一種漸進式知識轉移策略,以確保全面的知識遷移。該策略始於模仿提煉,通過最小化輸出分佈之間的Kullback-Leibler(KL)散度,使學生模型能夠模擬老師網絡的理解。隨後,我們通過直接偏好優化(DPO)引入了偏好提煉,其關鍵在於將l-MLLM視為參考模型。在此階段,s-MLLM區分優劣示例的能力顯著增強,超越了l-MLLM,尤其在幻覺基準測試中,使學生模型更優秀。大量實驗表明,LLaVA-MoD在各種多模態基準測試中優於現有模型,同時保持了最少的激活參數和低計算成本。值得注意的是,LLaVA-MoD僅激活了2B個參數,在各項基準測試中平均超越Qwen-VL-Chat-7B 8.8%,僅使用了0.3%的訓練數據和23%的可訓練參數。這些結果突顯了LLaVA-MoD有效地從其老師模型中提煉全面知識的能力,為更高效的MLLM的開發鋪平了道路。代碼將在以下鏈接提供:https://github.com/shufangxun/LLaVA-MoD。
在大型語言模型(LLM)推論中,LLM請求的輸出長度通常被視為事先未知。因此,大多數LLM服務系統採用簡單的先到先服務(FCFS)排程策略,導致先到先服務(HOL)阻塞,降低吞吐量和服務質量。本文重新檢視這一假設--我們指出,雖然預測每個請求的確切生成長度是不可行的,但可以使用學習排序來預測一批請求中輸出長度的相對排名。排名信息為請求排程提供了有價值的指導。基於這一見解,我們開發了一種新型的LLM推論和服務排程器,可以比現有方法更好地近似最短作業優先(SJF)排程。我們將此排程器與最先進的LLM服務系統集成,並在幾個重要應用中展示了顯著的性能改進:在聊天機器人服務中降低了2.8倍的延遲,合成數據生成的吞吐量提高了6.5倍。我們的程式碼可在https://github.com/hao-ai-lab/vllm-ltr.git 上找到。
為了培養大型語言模型(LLMs)的專業知識以解決特定領域任務,通常需要進行特定調整,以校準預期穩定輸出的行為。為了避免手動準備數百小時的指導數據集和培訓資源所帶來的巨大成本,利用包括豐富的低秩適應(LoRA)模型和指導數據集在內的開放知識成為一個良好的起點。然而,現有的模型和數據選擇方法著重於通用功能的性能,而忽略了在特定領域部署中暴露出的知識差距。在本研究中,我們提出通過引入少量人工標註樣本(即K-shot)來提升LLMs任務專業知識的開放知識,以彌合這種差距。具體而言,我們開發了一個高效且可擴展的流程,以成本效益地生成任務專家,其中K-shot數據介入選擇最有潛力的專家候選人和與任務相關的指導。我們建立了一個專家混合系統(MoE),以充分利用多個專家之間的個別但互補的知識。我們揭示了MoE系統成功的兩個關鍵,即1)遵循K-shot,和2)堅持多樣性。對於前者,我們確保選擇真正具有K-shot問題解決能力的模型,而不是那些盲目猜測者。此外,在數據選擇期間,與K-shot共享任務相關上下文的指導被優先考慮。對於後者,我們強調構成專家的多樣性以及在整個模型和數據選擇過程中微調指導的多樣性。廣泛的實驗結果證實了我們的方法在各種任務中利用開放知識方面優於現有方法。代碼和模型將稍後發布。
加速擴散模型的取樣速度仍然是一個重要挑戰。最近的分數蒸餾方法將一個龐大的教師模型蒸餾成一個一步生成器學生模型,通過計算兩個分數函數在學生模型生成的樣本上的差異來進行優化。然而,在蒸餾過程的早期階段存在分數不匹配問題,因為現有方法主要集中於使用預先訓練的擴散模型的端點作為教師模型,忽略了學生生成器與教師模型之間的收斂軌跡的重要性。為了解決這個問題,我們通過引入教師模型的整個收斂軌跡擴展了分數蒸餾過程,並提出了分布回溯蒸餾(DisBack)用於蒸餾學生生成器。DisBack由兩個階段組成:退化記錄和分布回溯。退化記錄旨在獲取教師模型的收斂軌跡,記錄了從訓練有素的教師模型到未訓練的初始學生生成器的退化路徑。這個退化路徑隱含地代表了教師模型的中間分布。然後,分布回溯訓練一個學生生成器來回溯中間分布,以逼近教師模型的收斂軌跡。大量實驗表明,DisBack實現了比現有蒸餾方法更快更好的收斂,並實現了可比的生成性能。值得注意的是,DisBack易於實現,並且可以應用於現有蒸餾方法以提高性能。我們的代碼公開在https://github.com/SYZhang0805/DisBack。
科學文獻的指數增長需要先進的工具來進行有效的知識探索。我們提出了知識導航器(Knowledge Navigator),這是一個旨在通過將廣泛主題查詢檢索的文檔組織和結構化為可導航的兩級命名和描述性科學主題和子主題層次結構,以增強探索性搜索能力的系統。這種結構化組織提供了一個領域研究主題的整體視圖,同時還允許用戶通過細化焦點並檢索額外相關文檔,在特定子主題中進行迭代搜索和更深入的知識發現。知識導航器結合了LLM功能和基於集群的方法,以實現一種有效的瀏覽方法。我們通過對兩個新穎基準CLUSTREC-COVID和SCITOC進行自動和手動評估展示了我們方法的有效性。我們的代碼、提示和基準已公開提供。
對於混合專家(Mixture-of-Experts,MoE)模型,專家負載不平衡將導致路由崩潰或增加計算開銷。現有方法通常採用輔助損失來鼓勵負載平衡,但過大的輔助損失將在訓練中引入不可忽視的干擾梯度,從而損害模型性能。為了在控制負載平衡的同時不產生訓練中的不良梯度,我們提出了Loss-Free Balancing,其特點是一種無輔助損失的負載平衡策略。具體而言,在頂部K路由決策之前,Loss-Free Balancing將首先對每個專家的路由分數應用專家智能偏差。通過根據其最近的負載動態更新每個專家的偏差,Loss-Free Balancing可以始終保持專家負載的平衡分佈。此外,由於Loss-Free Balancing不會產生任何干擾梯度,它還提高了從MoE訓練中獲得的模型性能上限。我們在具有高達3B參數的MoE模型上驗證了Loss-Free Balancing的性能,這些模型訓練了高達200B標記。實驗結果表明,與傳統的輔助損失控制負載平衡策略相比,Loss-Free Balancing實現了更好的性能和更好的負載平衡。
儘管 Mamba 架構在短文本自然語言處理(NLP)任務中展現出卓越的推論效率和競爭性表現,實證證據顯示相較於基於 transformer 的模型,其理解長文本的能力有限。本研究探討 Mamba 模型在處理長文本時的效率問題,並提出 ReMamba,以增強 Mamba 理解長文本的能力。ReMamba 在兩階段的重新轉發過程中融入選擇性壓縮和適應技術,幾乎不增加推論成本。在 LongBench 和 L-Eval 基準測試中的實驗結果顯示,ReMamba 的效能優異,分別比基準提高了 3.2 和 1.6 分,幾乎達到與同等大小 transformer 模型相當的表現水準。
我們探討如何增強下一個令牌預測模型,以在真實機器人上執行上下文模仿學習,其中機器人通過解釋輸入階段提供的上下文信息來執行新任務,而無需更新其基礎策略參數。我們提出了上下文機器人變壓器(ICRT),這是一種因果變壓器,對感知運動軌跡進行自回歸預測,而無需依賴任何語言數據或獎勵函數。這種形式使得模型可以在測試時靈活且無需訓練地執行新任務,通過提示模型使用由圖像觀察、動作和狀態元組組成的新任務的感知運動軌跡,這些軌跡是通過人類遠程操作收集的。通過對Franka Emika機器人進行實驗,證明了ICRT可以適應由提示指定的新任務,即使在與提示和訓練數據都不同的環境配置中也能適應。在多任務環境設置中,ICRT在泛化到未見任務方面顯著優於當前機器人領域中最先進的下一個令牌預測模型。代碼、檢查點和數據可在https://icrt.dev/ 上獲得。
利用現有模型的部分來重新構建新模型,通常被稱為基於示例的建模,在計算機圖形領域是一種經典方法。先前的研究主要集中在形狀組合上,使它們很難用於從現實場景中捕獲的3D物體的逼真組合。這導致將多個 NeRFs 組合成單個3D場景,以實現無縫外觀混合。然而,目前的 SeamlessNeRF 方法由於其基於梯度的策略和基於網格的表示而難以實現對現實場景的互動編輯和和諧拼接。為此,我們提出了一種基於示例的建模方法,使用基於樣本引導合成的點基表示結合多個高斯場。具體來說,對於組合,我們創建了一個 GUI,可以實時分割和轉換多個場,輕鬆獲得由3D高斯飛濺(3DGS)表示的模型的語義有意義的組合。對於紋理混合,由於3DGS的離散和不規則性,直接應用梯度傳播如SeamlssNeRF並不支持。因此,提出了一種新的基於採樣的克隆方法,以在保留原始豐富紋理和內容的同時協調混合。我們的工作流程包括三個步驟:1)使用精心設計的 GUI 實時分割和轉換高斯模型,2)KNN 分析以識別源模型和目標模型之間交叉區域的邊界點,以及 3)使用基於採樣的克隆和梯度約束對目標模型進行兩階段優化。大量實驗結果驗證了我們的方法在逼真合成方面顯著優於先前的工作,展示了其實用性。更多演示可在 https://ingra14m.github.io/gs_stitching_website 上找到。
在過去的幾年中,已取得顯著進展,僅通過真人影片創建逼真且可駕駛的3D化身。然而,一個核心的挑戰是通過文本描述對服裝風格進行精細和用戶友好的編輯。為此,我們提出了TEDRA,這是第一種允許基於文本對化身進行編輯的方法,該方法保持了化身的高保真度、時空一致性以及動態性,並實現了骨架姿勢和視角控制。我們首先訓練一個模型來創建一個可控且高保真度的真實演員的數字副本。接下來,我們通過在從不同攝像機角度捕捉的真實角色的各種幀上對預訓練的生成擴散模型進行微調個性化,確保數字表示忠實地捕捉真實人物的動態和運動。這個兩階段的過程為我們的動態人類化身編輯方法奠定了基礎。利用這個個性化的擴散模型,我們在基於模型的引導框架內使用我們的個性化正常對齊分數蒸餾抽樣(PNA-SDS)來根據提供的文本提示修改動態化身。此外,我們提出了一種時間步驟退火策略,以確保高質量的編輯。我們的結果顯示,在功能性和視覺質量方面,明顯優於先前的工作。