每日精選AI研究論文及翻譯
最近多模式大型語言模型(MLLMs)的激增徹底改變了人工智慧研究和產業的格局,為邁向下一個人工智慧里程碑指明了一條充滿希望的道路。然而,仍然存在著重大挑戰,阻礙了MLLMs在實際應用中的可行性。其中最引人注目的挑戰來自運行具有龐大參數和龐大計算量的MLLM所需的巨大成本。因此,大多數MLLMs需要部署在高性能的雲伺服器上,這大大限制了它們的應用範圍,如移動、離線、對能源敏感和保護隱私的情境。在這項工作中,我們提出了MiniCPM-V,這是一系列可部署在端設備上的高效MLLMs。通過在架構、預訓練和對齊方面整合最新的MLLM技術,最新的MiniCPM-Llama3-V 2.5 具有幾個顯著特點:(1)強大的性能,在OpenCompass上優於GPT-4V-1106、Gemini Pro和Claude 3,這是對11個熱門基準測試的全面評估,(2)強大的OCR能力和對任何長寬比的180萬像素高分辨率圖像感知,(3)低幻覺率的值得信賴的行為,(4)支持30多種語言的多語言支持,以及(5)在移動手機上的高效部署。更重要的是,MiniCPM-V可以被視為一個有前途的趨勢的代表性例子:實現可用性(例如GPT-4V)級別性能所需的模型大小正在迅速減小,與端設備計算能力的快速增長相呼應。這共同顯示,GPT-4V級別的MLLMs部署在端設備上正變得越來越可能,很快將在未來解鎖更廣泛的實際人工智慧應用領域。
對話是人與電腦互動(HCI)中最自然的方式。最近語音語言模型(SLM)的進步顯著增強了基於語音的對話式人工智能。然而,這些模型僅限於基於輪次的對話,缺乏在實時口語情境中與人類互動的能力,例如在生成的內容不滿意時被打斷。為了解決這些限制,我們探索了互動式語音語言模型(iSLM)中的全雙工建模(FDM),著重於增強實時互動,更明確地探索打斷的基本能力。我們引入了一種新型模型設計,即聽說語言模型(LSLM),這是一個端到端系統,配備了聽和說兩個通道。我們的LSLM採用基於標記的僅解碼器TTS進行語音生成,並使用流式自監督學習(SSL)編碼器進行實時音頻輸入。LSLM融合了兩個通道進行自回歸生成,並實時檢測交替對話。我們探索了三種融合策略——早期融合、中間融合和晚期融合,其中中間融合實現了語音生成和實時互動之間的最佳平衡。兩種實驗設置,基於命令的FDM和基於語音的FDM,展示了LSLM對噪音的穩健性和對多樣指令的敏感性。我們的結果突顯了LSLM實現雙工通信的能力,對現有系統影響最小。本研究旨在推動互動式語音對話系統的發展,增強其在現實世界情境中的應用性。
實現檢索增強生成(RAG)系統在本質上是複雜的,需要對數據、使用案例和精細設計決策有深入的理解。此外,評估這些系統也面臨著重大挑戰,需要通過多方面的方法來評估檢索準確性和生成質量。我們引入了 RAG Foundry,這是一個用於擴充大型語言模型以應用於 RAG 案例的開源框架。RAG Foundry 將數據創建、訓練、推斷和評估整合到單一工作流程中,有助於創建用於在 RAG 環境中訓練和評估大型語言模型的數據增強數據集。這種整合使得能夠快速原型設計和實驗各種 RAG 技術,讓用戶能夠輕鬆生成數據集並使用內部或專門知識來訓練 RAG 模型。我們通過使用多種 RAG 配置來擴充和微調 Llama-3 和 Phi-3 模型,展示了在三個知識密集型數據集上的一致改進。代碼已作為開源發布在 https://github.com/IntelLabs/RAGFoundry。
我們提出 Lumina-mGPT,這是一系列多模態自回歸模型,能夠處理各種視覺和語言任務,特別擅長根據文本描述生成靈活逼真的圖像。與現有的自回歸圖像生成方法不同,Lumina-mGPT採用預訓練的僅解碼器Transformer作為建模多模態標記序列的統一框架。我們的關鍵見解是,一個簡單的僅解碼器Transformer與多模態生成預訓練(mGPT)相結合,利用在龐大交錯的文本-圖像序列上的下一標記預測目標,可以學習廣泛且通用的多模態能力,從而實現逼真的文本到圖像生成。基於這些預訓練模型,我們提出了靈活漸進監督微調(FP-SFT),在高質量的圖像-文本配對上進行,以充分發揮其在高美學圖像合成中的潛力,同時保持其通用的多模態能力。此外,我們引入了全能監督微調(Omni-SFT),將Lumina-mGPT轉變為一個基礎模型,無縫實現全能任務統一。結果顯示,該模型展示了多樣的多模態能力,包括視覺生成任務,如靈活的文本到圖像生成和可控生成,視覺識別任務,如分割和深度估計,以及視覺語言任務,如多輪視覺問答。此外,我們通過直接比較分析了擴散式和自回歸方法之間的差異和相似之處。
我們介紹了MeshAnything V2,這是一種自回歸變壓器,可生成與給定形狀對齊的藝術家創建的網格(AM)。它可以與各種3D資產生產流程集成,以實現高質量、高度可控的AM生成。MeshAnything V2在相同大小的模型下,效率和性能均超越先前的方法。這些改進是由於我們新提出的網格標記化方法:相鄰網格標記化(AMT)。與以往將每個面用三個頂點表示的方法不同,AMT在可能的情況下使用單個頂點。與以往的方法相比,AMT平均需要大約一半的標記序列長度來表示相同的網格。此外,來自AMT的標記序列更加緊湊且結構良好,從根本上有利於AM生成。我們的大量實驗表明,AMT顯著提高了AM生成的效率和性能。專案頁面:https://buaacyw.github.io/meshanything-v2/
模型驗證是成功模型開發的核心 — 作為訓練的獎勵模型,並取代人類評估。為了訓練這樣的評估器,標準方法是收集大量關於模型回應的人類偏好判斷,這既昂貴又因模型改進而使數據過時。在這項工作中,我們提出了一種方法,旨在通過僅使用合成訓練數據來改進評估器,而無需人類標註。從未標記的指示開始,我們的迭代自我改進方案生成對比模型輸出,並訓練一個 LLM 作為評判來生成推理軌跡和最終判斷,在每個新迭代中重複使用改進的預測進行訓練。在沒有任何標記的偏好數據的情況下,我們的自學習評估器可以將強大的 LLM (Llama3-70B-Instruct) 從 75.4 提高到 88.3 (多數票為 88.7) 在 RewardBench 上。這優於常用的 LLM 評判器,如 GPT-4,並與使用標記示例訓練的表現最佳的獎勵模型的性能相匹敵。
指令調整在對齊大型語言模型(LLMs)與人類偏好方面扮演著關鍵角色。儘管存在大量開放指令數據集,但對所有現有指令進行單純訓練可能並非最佳且實際。為了找出最有益的數據點,自然語言處理(NLP)和深度學習領域提出了數據評估和選擇方法。然而,在指令調整的背景下,對於可以使用何種數據評估指標以及如何將其整合到選擇機制中仍存在知識上的差距。為了彌合這一差距,我們對現有文獻進行了全面回顧,特別針對LLMs的指令調整的數據評估和選擇進行了分析。我們將所有適用方法系統地分為基於質量、多樣性和重要性的方法,構建了統一、細緻的分類法。對於每個類別,我們詳細說明了代表性方法,以描述相關研究的全貌。此外,我們對最新方法進行了比較,根據官方報告的結果進行了深入討論,以提供對其局限性的深入探討。最後,我們總結了開放挑戰並提出了未來研究的有前途的方向。所有相關內容均可在https://github.com/yuleiqin/fantastic-data-engineering找到。
影片文本對的品質基本上決定了文本到影片模型的上限。目前,用於訓練這些模型的數據集存在顯著缺陷,包括低時間一致性、質量低劣的標題、視頻質量不佳和數據分佈不均。主流的影片策展過程依賴於圖像模型進行標記和基於手動規則的策展,這導致高計算負載並且留下不乾淨的數據。因此,缺乏適用於文本到影片模型的適當訓練數據集。為解決這個問題,我們提出了VidGen-1M,這是一個優質的文本到影片模型訓練數據集。通過粗到精的策展策略製作,該數據集確保了高質量的影片和詳細的標題,具有優秀的時間一致性。當用於訓練影片生成模型時,該數據集已經產生了超越其他模型的實驗結果。
本文提出了ProCreate,這是一種簡單且易於實現的方法,用於提高基於擴散的圖像生成模型的樣本多樣性和創造力,並防止訓練數據的復制。ProCreate作用於一組參考圖像,並在生成過程中積極推動生成的圖像嵌入遠離參考嵌入。我們提出了FSCG-8(Few-Shot Creative Generation 8),這是一個包含不同概念、風格和設置的八個不同類別的少樣本創造性生成數據集,在其中ProCreate實現了最高的樣本多樣性和保真度。此外,我們展示了ProCreate在使用訓練文本提示進行大規模評估時有效防止複製訓練數據。代碼和FSCG-8可在https://github.com/Agentic-Learning-AI-Lab/procreate-diffusion-public找到。項目頁面位於https://procreate-diffusion.github.io。
在生物學中,自然語言處理(NLP)的進步取決於模型解釋複雜的生物醫學文獻的能力。傳統模型通常難以應對這個領域中複雜且具有特定領域的語言。本文介紹了BioMamba,這是一個專門為生物醫學文本挖掘設計的預訓練模型。BioMamba基於Mamba架構,並在大量生物醫學文獻語料庫上進行了預訓練。我們的實證研究表明,BioMamba在各種生物醫學任務上明顯優於BioBERT和通用領域的Mamba等模型。例如,BioMamba在BioASQ測試集上將困惑度降低了100倍,交叉熵損失降低了4倍。我們概述了模型架構、預訓練過程和微調技術。此外,我們釋出代碼和訓練好的模型,以促進進一步的研究。
多智能體學習算法在各種遊戲中成功生成超越人類水準的規劃,但對部署的多智能體規劃器設計影響有限。應用這些技術於多智能體規劃的一個關鍵瓶頸是它們需要數十億步的經驗。為了在這個規模上進行多智能體規劃的研究,我們提出了GPUDrive,這是一個基於Madrona遊戲引擎構建的GPU加速多智能體模擬器,每秒可以生成超過一百萬步的經驗。觀察、獎勵和動力學函數直接用C++編寫,使用戶可以定義複雜、異構的智能體行為,並轉換為高性能CUDA。我們展示了使用GPUDrive,我們能夠在Waymo運動數據集的許多場景中有效訓練強化學習智能體,為個別場景在幾分鐘內產生高效的目標達成智能體,一般具有能力的智能體則需要幾小時。我們將這些訓練過的智能體作為代碼庫的一部分發布在https://github.com/Emerge-Lab/gpudrive。
組合式視覺推理方法將複雜查詢轉換為可行視覺任務的結構化組合,展現了在複雜多模式任務中的強大潛力。受到大型語言模型(LLMs)最新進展的推動,這種多模式挑戰已被提升到一個新階段,將LLMs視為少樣本/零樣本規劃者,即視覺語言(VL)編程。儘管這些方法具有眾多優點,但由於LLM規劃錯誤或視覺執行模組的不準確性,它們面臨挑戰,落後於非組合模型。在本研究中,我們設計了一種“即插即用”方法ExoViP,通過內省驗證來糾正規劃和執行階段的錯誤。我們將驗證模組作為“外骨骼”來增強當前的VL編程方案。具體來說,我們提出的驗證模組利用三個子驗證器的混合來驗證每個推理步驟後的預測,隨後校準視覺模組的預測並優化LLMs規劃的推理軌跡。在兩種代表性VL編程方法上的實驗結果展示了對標準基準上的五個組合推理任務的一致改進。基於此,我們相信ExoViP可以促進在開放域多模式挑戰上的更好性能和泛化。
最近開源大型語言模型(LLMs)的激增使開發人員能夠創建基於人工智慧的解決方案,同時保持對隱私和合規性等方面的控制,從而提供模型部署過程的治理和所有權。為了利用這些LLMs,需要推理引擎。這些引擎將模型的權重加載到可用資源(如GPU)上,並處理查詢以生成回應。LLM的推理速度或性能對於實時應用至關重要,因為它每次推理計算數百萬或數十億個浮點運算。最近,出現了先進的推理引擎,如vLLM,其中包含了高效的記憶體管理等新機制,以實現最先進的性能。在本文中,我們分析了20個LLMs的性能,特別是通過兩個推理庫(vLLM和HuggingFace的pipelines)生成的吞吐量(每單位時間生成的標記數)。我們調查了各種開發人員必須配置的超參數如何影響推理性能。我們的結果顯示,吞吐量景觀不規則,具有明顯的高峰,突顯了超參數優化的重要性以實現最大性能。我們還表明,在升級或降級用於推理的GPU模型時應用超參數優化,可以將HuggingFace pipelines的吞吐量平均提高9.16%和13.7%。
先進的人工智慧助理結合前沿的LLMs和工具訪問權限,以自主方式代表用戶執行複雜任務。儘管這類助理的幫助程度可以隨著訪問用戶信息(包括郵件和文件)而顯著提高,但這也引發了關於助理未經用戶監督與第三方分享不當信息的隱私擔憂。為了引導信息分享助理按照隱私期望行事,我們提出將情境完整性(CI)具體化的方法,該框架將隱私與特定情境中信息的適當流動相提並論。具體來說,我們設計並評估了多種策略,以引導助理的信息分享行為符合CI的要求。我們的評估基於一個由合成數據和人工標註組成的新型表單填寫基準,結果顯示,促使前沿的LLMs進行基於CI的推理會產生良好的效果。